媒体风向变化太快,让人目不暇接。早上还在夸 DeepSeek 成本低,性价比高,预训练 Scaling Law 死了,不需要太多机器和 GPU 卡,性价比优先,英伟达休矣;中午 Grok 3 一出来,说是用了 10 万张英伟达 H100 卡,效果力压 ...
但是卡多有个好处,就是能压缩实验新想法和训练大模型基座的时间周期。比如你总得探索一些不同的算法、参数或数据配比的模型进行各种实验,你有10个新想法,如果只有2000张卡,可能得跑5天才能得出结论,要是有几万张卡,可能1天就能得出结论,所以卡多对于探索 ...
【编者按】2月18日,埃隆·马斯克旗下的人工智能公司 xAI 发布了 Grok 3 系列模型,使用 20 万 GPU,并被马斯克誉为“地球上最聪明的AI”。对此,也引申出一个话题,那就是预训练阶段的 Scaling Law ...
媒体风向变化太快,让人目不暇接。早上还在夸Deepseek成本低,性价比高,预训练Scaling Law死了,不需要太多机器和GPU卡,性价比优先,英伟达休矣;中午Grok 3一出来,说是用了10万张英伟达H100卡,效果力压OpenAI o3 mini和Deepseek R1,就转向说Scaling ...
20 天
来自MSNScaling Law要撞墙了吗?如何找到基座大模型的未来方向?Scaling Law过去是、现在是、将来也会继续是推动大模型快速发展的第一动力,我自己一般是通过它来对大模型未来发展悲观乐观做总体判断的:只要目前Scaling ...
如果其他因素没有得到优化(如数据质量噪声多、重复率高),单纯增加算力投入可能无法显著提升模型效果。例如,DeepMind 的 Chinchilla 模型研究发现,与其盲目增加算力,不如平衡数据量和模型规模,这样可以在相同算力下获得更好效果。 在实际应用中 ...
按照Chinchilla Scaling Law推断,即使没有新数据,也并不意味着模型效果提不上去了,很简单,只要增加基座模型尺寸,效果仍然会提高,只是从付出的 ...
为了在给定的计算预算内生成尽可能多样的教师模型,本文训练了六个 Chinchilla 最优教师模型,其参数范围从 1.98 亿到 77.5 亿。对于每一个教师模型,本文按照标准训练成本,将其蒸馏到具有四种 IsoFLOP 配置的学生模型中。最终得到的学生模型交叉熵如图 2 所示。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果