近日,字节跳动豆包大模型团队开源了一项名为COMET的MoE架构优化技术,引发了广泛关注。这项技术可将大模型训练效率提升1.7倍,已在字节的万卡集群训练中实现数百万GPU小时的算力节省。这一突破不仅标志着AI技术的快速发展,也引发了人们对未来职业发展的深刻思考。
DeepSeek通过MoE架构的创新让激活参数比大幅下降,使得同等效果的大模型所需的算力明显下降。“671B的模型,在处理每个问题时,被调用激活的专家模型参数仅约37B,算力需求起码降低到原来的约二十分之一。”阿里云无影事业部总裁张献涛曾在接受《每日经济新闻》记者采访时表示。
在深度学习的时代潮流中,节省计算资源和优化模型训练成本变得尤为重要。近日,字节跳动旗下的豆包团队宣布,再次在Mixture of Experts(MoE)模型的训练中削减成本,整整节省了高达40%的训练开支!这一次,他们的秘密武器是刚刚开源的COMET技术。
消息面上,3月10日,豆包大模型团队发布了针对MoE(混合专家模型)架构的通信优化系统COMET,该方案通过细粒度计算-通信重叠技术,助力大模型训练优化。据豆包大模型团队介绍,COMET已实际应用于万卡级生产集群,累计节省了数百万GPU(图形处理器)小时资源。豆包大模型团队称,COMET这一创新在大规模MoE模型上可达到单层1 ...
来自MSN28 天
Perplexity 官宣“Comet”浏览器,主打“AI 智能体搜索”IT之家 2 月 25 日消息,人工智能搜索引擎 Perplexity AI 进军浏览器市场,即将推出名为“Comet”的浏览器,致力于打造更贴近用户需求的搜索体验, 并 ...
IT之家 1 月 20 日消息,厂商 Mecha 在 CES 2025 上展示了一款名为 Comet 的 Linux 系统模块化掌上电脑设备。这台手持硬件设备采用模块化设计,下方可通过 ...
汇港通讯> 据内媒报道,字节跳动豆包大模型团队开源针对 MoE (混合专家)架构的关键优化技术COMET,可将大模型训练效率提升1.7倍,成本节省40%。 据悉,该技术已实际应用於字节的万卡集群训练,累计帮助节省了数百万 GPU 小时训练算力。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果