本篇主要总结目前三种scaling law:Pre-train、RL、Test Time相关的内容。 现在关于scaling law是否“撞墙”的讨论越来越多,Chinchilla Scaling Law推断,"即使没有新数据,也并不意味着模型效果提不上去了,很简单,只要增加基座模型尺寸,效果仍然会提高,只是从付出的 ...