norm - 搜索 News

资讯

1 天

英伟达含量为零：华为密集模型盘古 Ultra 性能比肩 DeepSeek-R1，纯昇腾 ...

另外，盘古团队也针对 Tokenizer 进行了优化，通过在通用中英文、代码、数学等不同领域分别进行词频统计，再合并去重，最终得到了一个兼顾领域覆盖和编码效率的 153376 个 token 的平衡词表。

知乎专栏 on MSN1 天

不用英伟达GPU！华为盘古Ultra来了：昇腾原生、135B稠密通用大模型

机器之心报道。终于，华为盘古大模型系列上新了，而且是昇腾原生的通用千亿级语言大模型。我们知道，如今各大科技公司纷纷发布百亿、千亿级模型。但这些大部分模型训练主要依赖英伟达的 GPU。

英伟达含量为零！华为密集模型性能比肩DeepSeek-R1，纯昇腾集群训练

盘古Ultra使用的Sandwich-Norm层归一化，则是在残差连接前对每个子层的输出做归一化，并根据网络深度对初始化值进行缩放，从而有效消除了训练过程中的loss尖峰，使训练过程更加平稳。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果