近日,月之暗面团队宣布其开源改进版的Muon优化器在算力需求上相较于传统优化器AdamW锐减48%。这一突破由OpenAI的技术人员提出的训练优化算法Muon演变而来,经过团队深入研究与优化,结果令人振奋。团队通过实验发现,Muon不仅在参数量最高达到1.5B的Llama架构模型上表现优异,其算力需求仅为AdamW的52%。这一进展标志着Muon的可扩展性得到了验证,为更大规模的训练奠定了基础。
昨天,月之暗面抢先一步开源了改进版 Muon 优化器,比 AdamW 优化器计算效率提升了 2 倍。 团队人员表示,原始 Muon 优化器在训练小型语言模型方面 ...
算力需求比AdamW直降48%,OpenAI技术人员提出的训练优化算法Muon,被月之暗面团队又推进了一步! 团队发现了Muon方法的Scaling Law,做出改进并证明了 ...
月之暗面最新技术报告 —— 《Muon is Scalable for LLM Training》! 推出了一个全新的优化器 Muon,并基于此训练出了 3B/16B 参数的混合专家模型 (MoE ...
The constellation will keep a close eye on wildfires, eventually imaging nearly all of the Earth’s surface once every 20 ...
Muon tomography, or muography, is the practice of using muons generated by cosmic rays interacting with Earth’s atmosphere to image structures on Earth’s surface, akin to producing an X-ray.
克雷西 发自 凹非寺量子位 | 公众号 QbitAI 算力需求比AdamW直降48%,OpenAI技术人员提出的训练优化算法Muon,被月之暗面团队又推进了一步! 团队发现 ...
Muon Space, an end-to-end space systems provider, has successfully launched the FireSat Protoflight satellite, marking a ...
Earth Fire Alliance, the global nonprofit coalition committed to delivering transformative data and insights from all ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果