norm - 搜索 News

4 小时

UK study suggests phone bans may not be effective 英国研究指出校园手机禁令 ...

Modern life makes us tired, right? But research from societies in Africa and South America suggests people in the ancient ...

腾讯网22 小时

何恺明LeCun改造Transformer！9行代码替代归一化性能不减还加速

DyT适用于注意力块、FFN块和最终归一化层，尽管它可能看起来像是激活函数，但在这篇研究中不会改变原始架构中激活函数的任何部分，网络的其他部分也保持不变。

21 小时

何恺明和LeCun联手颠覆Transformer，归一化层被轻松砍掉！

在最新突破性研究中，何恺明与Yann LeCun这对神级搭档惊艳世界，他们通过仅仅9行代码成功去除了Transformer模型中的归一化层，且模型性能非但没有下降，反而得到了提升。这一创新成果来自于纽约大学、Meta、麻省理工学院等多家顶尖学术机构的共同努力，研发出一种不依赖于传统归一化层的新型技术。

21 小时

何恺明LeCun暴击Transformer命门，9行代码砍掉归一化层！性能反而更强了？

【新智元导读】 Transformer架构迎来历史性突破！刚刚，何恺明 LeCun、清华姚班刘壮联手，用9行代码砍掉了Transformer「标配」归一化层，创造了性能不减反增的奇迹。

腾讯网21 小时

没有归一化层的Transformer！刘壮带队，何恺明、Yann LeCun都参与了

机器之心报道机器之心编辑部何恺明又双叒叕发新作了，这次还是与图灵奖得主 Yann LeCun 合作。这项研究的主题是没有归一化层的 Transformer（Transformers without Normalization），并已被 CVPR ...

22 小时

何恺明LeCun联手改造Transformer！9行代码替代归一化层，性能不减还加速

前Salesforce首席科学家、搜索引擎You的CEO Richard Socher也表示，这项成果加强了他之前的假设——原始的Transformer只是众多等效神经结构之中的一个。选取ViT、wav2vec 2.0和DiT三种训练好的网络，对每个网络采样一个小批量样本进行前向传播，测量LayerNorm层在可学习仿射变换前的输入和输出，建立输入输出元素的一一对应关系，从而直接可视化两者关系。

12 天

康哥带你背单词day25，累了可以休息但别放弃

#康哥带你记单词#第25天，休息是为了更好的出发，如果学累了不妨休息一下，别硬撑。再鸡血的人也有累的时候，我们不是机器。等你休息好了，恢复元气后，继续踏上战场，继续战斗。

5 小时

字节首次公开图像生成基模技术细节，数据处理到RLHF全流程披露

就在今天，字节豆包大模型团队在 arxiv 上发布了一篇技术报告，完整公开了文生图模型技术细节，涵盖数据处理、预训练、RLHF 在内的后训练等全流程模型构建方法，也详细披露了此前大火的文字精准渲染能力如何炼成。

腾讯网3 天

字节豆包文生图技术报告发布：数据处理、预训练、RLHF全流程公开

IT之家 3 月 12 日消息，今天，豆包大模型团队正式发布文生图技术报告，首次公开 Seedream 2.0 图像生成模型技术细节，覆盖数据构建、预训练框架、后训练 RLHF 全流程，针对 Seedream 2.0 ...

腾讯网6 天

软件定义雷达是SDV道路上的第一步

汽车行业正逐步向新架构迈进。软件定义汽车 (SDV) 多年来一直让汽车公司的营销人员感到焦虑，尽管他们普遍认同其发展方向，但在采用速度和途径上却存在分歧。对于大多数 OEM ...

中时新闻网7 天

DOGE恐违宪？马斯克改革太超过川普警告「1句话」

最近主管政府效率部（DOGE）的富商马斯克（Elon Musk）与多位内阁成员发生口角，其原因可能源自马斯克开除太多联邦员工，这也让川普告诫他「留住好人才」，对此，有反对DOGE的律师与联邦员工认为，马斯克与其DOGE部 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果