MOE - 搜索 News

为DeepSeek MoE模型带来「免费午餐」加速，专家链可大幅提升LLM的信息 ...

机器之心授权发布作者：王子涵我们都知道，DeepSeek-R1 的训练过程使用了一种名为专家混合模型（Mixture-of-Experts, MoE）的技术，而当前的 MoE ...

来自MSN1 小时

DeepSeek前实习生魔改MoE，用迭代机制把内存需求砍了42%，团队 ...

西风发自凹非寺量子位 | 公众号 QbitAI DeepSeek MoE“变体”来了，200美元以内，内存需求减少17.6-42%！

来自MSN4 天

在人工智能领域，混合专家架构（MoE）与Transformer架构的融合正在成为推动大模型发展的新趋势。文章深入剖析了MoE架构的核心理念、优势以及与Transformer架构的融合方式，探讨了这种融合如何提升模型的计算效率、扩展性和适应性，供大家参 ...

腾讯网46 分钟

AI催化新一轮创业潮与创富潮：深圳在抢跑

AI带来的新一轮科技革命已然来临。我们每个人都需要意识到，AI正在重构绝大部分产业的底层架构，并将使很多行业的迭代升级甚至颠覆性变革。因此，对于中国，另一场历史性大幕也在徐徐拉开，即AI的快速崛起正在催化新一轮的创业浪潮，并将带来新一轮的创富浪潮。

6 小时

阿里达摩院资深技术专家：DeepSeek为RISC-V架构带来新发展机遇

格隆汇3月4日｜据21财经，阿里巴巴达摩院资深技术专家李春强在采访时表示，DeepSeek模型的火爆为RISC-V架构带来了新的发展机遇。“DeepSeek通过MOE技术大幅降低了激活参数比，使得模型在同等效果下所需算力显著减少，这一变化为芯片设计提供了新的平衡点。”李春强说道。RISC-V是一款开源且免费的CPU指令集架构。与x86和ARM等传统指令集架构相比，RISC-V不仅完全免费开放，还支 ...

52 分钟

百度也重新站队，被DeepSeek“架”着走的大模型厂商开源盈利路在何方？

DeepSeek正在撼动当前AI大模型的市场格局。有行业人士表示，大模型仍然保持超高速迭代的态势，“过时的”模型几乎无人问津。“在大模型领域，想利用短期的算法技术优势或商业模式来打造形成长期的竞争壁垒，目前看来是不可能的。”该业内人士称。

7 天

DeepSeek再开源！DeepEP通信库为MoE模型带来GPU性能新突破

DeepEP的横空出世，为AI领域的MoE模型优化带来了革命性的变化。作为专为MoE架构定制的通信解决方案，DeepEP提供了高吞吐量和低延迟的全对全GPU内核，业内称之为MoE调度与合并。这些内核的设计旨在充分利用现代硬件的优势，大幅提升MoE模型 ...

7 天

DeepEP开源发布：MoE模型的GPU通信新引擎

在人工智能技术迅猛发展的今天，深度学习模型的训练和推理效率成为技术研发的关键。近日，DeepSeek公司在其开源周活动中推出了一个名为DeepEP的新通信库，该库专为混合专家（MoE）模型和专家并行（EP）通信设计，迅速吸引了广泛关注。DeepEP的 ...

7 天

刚刚，DeepSeek开源MoE训练、推理EP通信库DeepEP，真太Open了！

DeepEP 是一个专为混合专家系统（MoE）和专家并行（EP）定制的通信库。它提供高吞吐量和低延迟的 all-to-all GPU 内核，这些内核也被称为 MoE 分发和合并。该库还支持低精度操作，包括 FP8。

7 天

DeepSeek开源周第二日：开源DeepEP通信库，引领MoE模型新风潮

2月25日，DeepSeek开源周第二日正式揭晓了重磅开源项目——DeepEP通信库。这是全球首个专注于MoE（混合专家）模型训练与推理的开源通信库，标志着AI领域在分布式训练和高效模型部署方面迈出了重要一步。

6 小时

重塑AI算力格局：DeepSeek 驱动RISC-V崛起

阿里巴巴达摩院资深技术专家李春强在采访时表示，DeepSeek模型的火爆为RISC-V架构带来了新的发展机遇。“DeepSeek通过MOE技术大幅降低了激活参数比，使得模型在同等效果下所需算力显著减少，这一变化为芯片设计提供了新的平衡点。”李春强说道。RISC-V是一款开源且免费的CPU指令集架构。与x86和ARM等传统指令集架构相比，RISC-V不仅完全免费开放，还支持自定义指令扩展，因此被视为 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果