norm - 搜索 News

4 小时

UK study suggests phone bans may not be effective 英国研究指出校园手机禁令 ...

Modern life makes us tired, right? But research from societies in Africa and South America suggests people in the ancient ...

腾讯网22 小时

何恺明LeCun改造Transformer！9行代码替代归一化性能不减还加速

DyT适用于注意力块、FFN块和最终归一化层，尽管它可能看起来像是激活函数，但在这篇研究中不会改变原始架构中激活函数的任何部分，网络的其他部分也保持不变。

21 小时

何恺明和LeCun联手颠覆Transformer，归一化层被轻松砍掉！

在最新突破性研究中，何恺明与Yann LeCun这对神级搭档惊艳世界，他们通过仅仅9行代码成功去除了Transformer模型中的归一化层，且模型性能非但没有下降，反而得到了提升。这一创新成果来自于纽约大学、Meta、麻省理工学院等多家顶尖学术机构的共同努力，研发出一种不依赖于传统归一化层的新型技术。

21 小时

何恺明LeCun暴击Transformer命门，9行代码砍掉归一化层！性能反而更强了？

【新智元导读】 Transformer架构迎来历史性突破！刚刚，何恺明 LeCun、清华姚班刘壮联手，用9行代码砍掉了Transformer「标配」归一化层，创造了性能不减反增的奇迹。

腾讯网21 小时

没有归一化层的Transformer！刘壮带队，何恺明、Yann LeCun都参与了

机器之心报道机器之心编辑部何恺明又双叒叕发新作了，这次还是与图灵奖得主 Yann LeCun 合作。这项研究的主题是没有归一化层的 Transformer（Transformers without Normalization），并已被 CVPR ...

22 小时

何恺明LeCun联手改造Transformer！9行代码替代归一化层，性能不减还加速

前Salesforce首席科学家、搜索引擎You的CEO Richard Socher也表示，这项成果加强了他之前的假设——原始的Transformer只是众多等效神经结构之中的一个。选取ViT、wav2vec 2.0和DiT三种训练好的网络，对每个网络采样一个小批量样本进行前向传播，测量LayerNorm层在可学习仿射变换前的输入和输出，建立输入输出元素的一一对应关系，从而直接可视化两者关系。

5 小时

字节首次公开图像生成基模技术细节，数据处理到RLHF全流程披露

就在今天，字节豆包大模型团队在 arxiv 上发布了一篇技术报告，完整公开了文生图模型技术细节，涵盖数据处理、预训练、RLHF 在内的后训练等全流程模型构建方法，也详细披露了此前大火的文字精准渲染能力如何炼成。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果