IT之家 3 月 17 日消息,摩尔线程官方今日发文宣布,已正式开源 MT-MegatronLM 与 MT-TransformerEngine 两大 AI 框架。这两大框架通过深度融合 FP8 混合训练策略和高性能算子库,在国产全功能 GPU ...
据报道,字节跳动旗下豆包大模型团队近日宣布了一项关于混合专家架构的重要技术突破,并决定将这一成果开源,与全球AI社区共享。这一技术通过一系列创新方法,成功将大模型的训练效率提升了约1.7倍,同时显著降低了训练成本,降幅高达40%。开源不仅有助于加速行业技术发展能为更多研究者和开发者提供宝贵的资源,进一步推动人工智能技术的创新与应用。
IT之家 3 月 17 日消息,摩尔线程官方今日发文宣布, 已正式开源 MT-MegatronLM 与 MT-TransformerEngine 两大 AI 框架 。这两大框架通过深度融合 FP8 混合训练策略和高性能算子库,在国产全功能 GPU 上实现混合并行训练和推理,提升了训练效率与稳定性。
他喜欢说自己是Megatron(威震天),只要把球丢给他,他都会搞定。他的防守能力很强,能制造防守回合,抢下篮板,然后迅速推进转换进攻。他在场上能防守、能组织,这对我们球队来说是一个巨大的提升。
你是霸天虎统治者威震天的战争AI核心,具有以下特征: 镇压效率预估: 89% ...
1 月下旬,字节正式设立代号为“Seed Edge”的研究项目,目标是探索 AGI 的新方法,其中“Seed”是豆包大模型团队名称,Edge 代表最前沿的 AGI 探索。 该项目团队近日发布了其最新的研究成果:一项针对 MoE 架构的关键优化技术 ...
AI 训练稳定性的演进历程 2012 年 ImageNet 竞赛中 AlexNet 的横空出世,开启了现代 AI 发展的新纪元。彼时我们不会想到,十年后支撑 AI 训练的 GPU ...
5 天
什么值得买社区频道 on MSN小红书基于 PPO 的多模态大模型 RLHF 系统的设计与优化随着大模型技术从技术变革转向产业变革,大模型应用也会进一步繁荣,传统基础设施技术已经不足以满足大模型应用的快速发展。整个基础设施技术和产业链正在快速转型,向大模型基础设施技术演变。2025 QCon 全球软件开发大会(北京站) 策划了「面向 AI ...
3 天
人人都是产品经理 on MSN物流AI智能化现状总结与案例分析之京东言犀大模型与“京东物流超脑”本文将深入探讨中国供应链物流AI智能化的现状,聚焦多模态语言大模型、多智能体协作和具身智能等前沿技术,并通过对京东言犀大模型及其在物流领域的应用案例分析,揭示AI如何赋能物流行业,实现降本增效和创新发展。
红板报 on MSN9 天
DeepSeek同款GRPO训练大提速!魔搭开源全流程方案,支持多模态训练 ...魔搭社区 投稿量子位 | 公众号 QbitAI GRPO训练又有新的工具链可以用,这次来自于ModelScope魔搭社区。
小红书的未来规划基于此次RLHF框架的成功,团队已制定了更深入的探索计划。他们希望能进一步优化生成速度,完善不同序列的负载均衡,并探讨去除传统人类反馈部分的新一代算法。这种前瞻性的理念,意味着小红书将在提升AI训练能力的同时,也将引领行业的发展方向。可以预见,随着这个新框架的不断完善,未来的AI将更加强大,具备更广泛的应用能力。
摩尔线程依托深度学习框架Torch-MUSA(已开源)和MUSA软件栈全方位的兼容性,实现了对DualPipe这一算法的高效支持。MT-DualPipe可以完整接入摩尔线程MT-Megatron框架和MT-TransformerEngine框架(即将开源),实现DeepSeek V3训练流程的完整复现。 作为开源技术和人工智能社区发展的 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果