DeepSeek 刚刚公开了他们的"秘密武器"是如何打造的!这事儿有多火?他们就放出了一个 GitHub ...
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。 投稿邮箱:liyazhou ...
近日,月之暗面团队宣布其开源改进版的Muon优化器在算力需求上相较于传统优化器AdamW锐减48%。这一突破由OpenAI的技术人员提出的训练优化算法Muon演变而来,经过团队深入研究与优化,结果令人振奋。团队通过实验发现,Muon不仅在参数量最高达 ...
团队在OpenSourceWeek的第四天,DeepSeek大招如约而至,开源了两项堪称“AI训练加速神器”的技术,其中还有梁文锋亲自参与的项目。这对于动辄需要数百万美元、耗时数月的大模型训练来说是一剂“强心针”,体现在:减少管道泡沫:它通过高效调度 ...
DeepSeek开源第四弹:AI训练加速神器,deepseek,算法,通信 ...
加利福尼亚州圣地亚哥 - General Atomics Aeronautical Systems, Inc. (GA-ASI)与CAE签署了长期协议,共同开发和供应MQ-9B SkyGuardian®远程驾驶飞行系统(RPAS)的下一代任务训练器。今日宣布的合作计划包括11台训练器的确定订单,未来五年内可能增至50台。
加拿大国防部长布莱尔(Bill Blair)表示,为支持乌克兰飞行训练,将提供2具F-16的飞行模拟器,这使得乌克兰的该设备增加到4部,训练效果可望增加两倍。布莱尔出席英国主办的第26次乌克兰防务联络小组会议、布鲁塞尔北 ...
月之暗面最新技术报告 —— 《Muon is Scalable for LLM Training》! 推出了一个全新的优化器 Muon,并基于此训练出了 3B/16B 参数的混合专家模型 (MoE)——Moonlight。这个 Moonlight ...
Hosted on MSN10d
AI大脑解码器不需要训练,通过大脑扫描即可读取一个人的想法对现有基于 AI 的大脑解码器的改进可以在无需数小时培训的情况下将人的想法转化为文本。 一组研究人员开发了一种算法,可以让在一个人身上训练的人工智能驱动的“大脑解码器”以最少的培训翻译另一个人的想法。 (图片来源:Jerry Tang/德克萨斯大学奥斯汀分校) 科学家们对使用人工智能 (AI) 将思想转换为文本的“大脑解码器”进行了新的改进。
相比之下,早期技术需要参与者在功能性磁共振成像扫描仪中躺16小时来训练脑解码器。 新技术创建了一种基于语言的脑机接口方法,而无需任何 ...
训练场上,实弹射击训练紧张进行。官兵们卧倒、据枪、瞄准、击发一气呵成,子弹精准命中百米外靶标。与此同时,手榴弹投掷等课目也相继展开。握弹拉环、撤步引弹、挥臂扣腕,官兵们动作熟练,指挥员防护得当,弹体精准落入落弹区。
在人工智能领域,训练大型语言模型(LLMs)已成为推动技术进步的重要方向。然而,随着模型规模和数据集的不断扩大,传统的优化方法 —— 特别是 AdamW—— 逐渐显露出其局限性。研究人员面临着计算成本高、训练不稳定等一系列挑战,包括梯度消失或爆炸、参数矩阵更新不一致及分布式环境下的资源需求高等问题。因此,迫切需要更高效、更稳定的优化技术来应对这些复杂性。
Some results have been hidden because they may be inaccessible to you
Show inaccessible results