MOE - 搜索 News

人人都是产品经理 on MSN4 天

在人工智能领域，混合专家架构（MoE）与Transformer架构的融合正在成为推动大模型发展的新趋势。文章深入剖析了MoE架构的核心理念、优势以及与Transformer架构的融合方式，探讨了这种融合如何提升模型的计算效率、扩展性和适应性，供大家参 ...

6 天

DeepEP来了，AI工具的未来更光明 ...

DeepSeek之前发布的V3模型就是采用了MoE混合专家模型架构。可以理解为，多个专家共同完成庞大的任务，有人擅长数学、有人擅长物理。在用户下达每个任务的时候，大模型会选取需要激活的专家，而不需要调动全部专家团队。

7 天

2月25日，DeepSeek开源周第二日正式揭晓了重磅开源项目——DeepEP通信库。这是全球首个专注于MoE（混合专家）模型训练与推理的开源通信库，标志着AI领域在分布式训练和高效模型部署方面迈出了重要一步。

7 天

DeepEP的横空出世，为AI领域的MoE模型优化带来了革命性的变化。作为专为MoE架构定制的通信解决方案，DeepEP提供了高吞吐量和低延迟的全对全GPU内核，业内称之为MoE调度与合并。这些内核的设计旨在充分利用现代硬件的优势，大幅提升MoE模型 ...

6 天

据 DeepSeek 介绍，DeepEP 是一个为 MoE 和 EP 量身定制的通信库。它能提供高吞吐量和低延迟的 all-to-all GPU 内核，也称为 MoE 调度和组合。该库还支持低精度操作，包括 ...

7 天

DeepEP 是一个专为混合专家系统（MoE）和专家并行（EP）定制的通信库。它提供高吞吐量和低延迟的 all-to-all GPU 内核，这些内核也被称为 MoE 分发和合并。该库还支持低精度操作，包括 FP8。

DeepEP团队在在H800（~160 GB/s NVLink最大带宽）上测试普通内核，每个内核都连接到CX7 InfiniBand 400 Gb/s RDMA网卡（~50 GB/s 最大带宽）。

来自MSN6 天

上周五，DeepSeek 发推说本周将是开源周（OpenSourceWeek），并将连续开源五个软件库。昨天，他们开源了第一个代码库 —— FlashMLA。这是一款用于 Hopper GPU 的高效型 MLA 解码核，仅用了 24 ...

7 天

DeepSeek在近期的开源周活动中，正式向公众开源了DeepEP，这是首个专为混合专家模型（MoE）设计的高效专家并行通信库。DeepEP的推出标志着AI模型训练和推理领域的一次重要突破，为MoE模型的广泛应用提供了强有力的技术支持。

来自MSN10 个月

此前米哈游、腾讯均有投资MiniMax。在MoE尚未成为行业共识时，MiniMax已经押注MoE路线，今年1月发布其首款基于MoE架构的abab 6，并在过去3个月潜心 ...

1 天on MSN

【3 月 2 日，汤姆猫称其 AI 情感陪伴机器人产品采用特定架构及模型】在底层模型方面，汤姆猫(300459.SZ)的 AI 情感陪伴机器人产品采用 MoE 架构，搭载与西湖心辰定制的“汤姆猫情感陪伴垂直模型”，还调用了豆包、DeepSeek ...

一些您可能无法访问的结果已被隐去。