近日,月之暗面团队宣布其开源改进版的Muon优化器在算力需求上相较于传统优化器AdamW锐减48%。这一突破由OpenAI的技术人员提出的训练优化算法Muon演变而来,经过团队深入研究与优化,结果令人振奋。团队通过实验发现,Muon不仅在参数量最高达到1.5B的Llama架构模型上表现优异,其算力需求仅为AdamW的52%。这一进展标志着Muon的可扩展性得到了验证,为更大规模的训练奠定了基础。
机器之心报道编辑:陈陈、佳琪省一半算力跑出2倍效果,月之暗面开源优化器Muon,同预算下全面领先。月之暗面和 DeepSeek 这次又「撞车」了。上次是论文,两家几乎前后脚放出改进版的注意力机制,可参考《撞车 DeepSeek NSA,Kimi 杨植麟署名的新注意力架构 MoBA 发布,代码也公开》、《刚刚!DeepSeek ...
The constellation will keep a close eye on wildfires, eventually imaging nearly all of the Earth’s surface once every 20 ...
算力需求比AdamW直降48%,OpenAI技术人员提出的训练优化算法Muon,被月之暗面团队又推进了一步! 团队发现了Muon方法的Scaling Law,做出改进并证明了 ...
IT之家 2 月 24 日消息,月之暗面 Kimi 昨日发布了“Muon 可扩展用于 LLM 训练”的新技术报告,并宣布推出“Moonlight”:一个在 Muon 上训练的 30 亿 / 160 亿参数混合专家模型(MoE)。使用了 5.7 万亿个 token,在更低的浮点运算次数(FLOPs)下实现了更好的性能,从而提升了帕累托效率边界。月之暗面称,团队发现 ...
Google has partnered with numerous other agencies to launch FireSat, a first-of-its-kind wildfire detection system.
Muon Space, an end-to-end space systems provider, has successfully launched the FireSat Protoflight satellite, marking a ...
克雷西 发自 凹非寺量子位 | 公众号 QbitAI 算力需求比AdamW直降48%,OpenAI技术人员提出的训练优化算法Muon,被月之暗面团队又推进了一步! 团队发现 ...
IT之家 2 月 24 日消息,月之暗面 Kimi 昨日发布了“Muon 可扩展用于 LLM 训练”的新技术报告,并宣布推出“Moonlight”:一个在 Muon 上训练的 30 亿 / 160 ...
Earth Fire Alliance, the global nonprofit coalition committed to delivering transformative data and insights from all ...
FireSat is a satellite constellation developed by Google Research in collaboration with the Earth Fire Alliance, the Gordon & ...