4 天
知乎 on MSNGrok3是否已证明堆算力无用,全人类的信息量不足以支撑大模型技术 ...现在这些主流闭源大模型,都不太愿意公布自己的训练数据量,不过我们可以根据GROK3的1.8万亿参数量简单估算一下。 Hoffmann等人2022年的时候提出过一个Chinchilla Scaling Laws,用来讨论大模型训练所需计算量和数据量的关系。 训练总计算量C 与模型参数数量N和训练数据规模D之间的关系可以表示为: C = ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果