MOE - 搜索 News

为DeepSeek MoE模型带来「免费午餐」加速，专家链可大幅提升LLM的信息 ...

机器之心授权发布作者：王子涵我们都知道，DeepSeek-R1 的训练过程使用了一种名为专家混合模型（Mixture-of-Experts, MoE）的技术，而当前的 MoE ...

DeepSeek前实习生魔改MoE，用迭代机制把内存需求砍了42%，团队 ...

名叫 CoE（Chain-of-Experts），被认为是一种“免费午餐”优化方法，突破了MoE并行独立处理token、整体参数数量较大需要大量内存资源的局限。研究团队在实验中发现，经过2次迭代的CoE，在相同的计算预算下将数学任务的验证损失从1 ...

来自MSN4 天

混合专家架构（MoE）与 Transformer 融合的·深度解读

在人工智能领域，混合专家架构（MoE）与Transformer架构的融合正在成为推动大模型发展的新趋势。文章深入剖析了MoE架构的核心理念、优势以及与Transformer架构的融合方式，探讨了这种融合如何提升模型的计算效率、扩展性和适应性，供大家参 ...

6 小时

国产人工智能算力迎来春天！科创板人工智能ETF大涨4%引发热议

在资本市场上，人工智能领域的最新动态再次吸引了众多投资者的眼球。近期，科创板的人工智能ETF（588930）在市场上表现抢眼，今日一举上涨4%，并连续七个交易日获得资金净申购。这一现象并非偶然，而是背后有着深厚的技术与市场趋势支撑。

8 小时

阿里达摩院资深技术专家：DeepSeek为RISC-V架构带来新发展机遇

格隆汇3月4日｜据21财经，阿里巴巴达摩院资深技术专家李春强在采访时表示，DeepSeek模型的火爆为RISC-V架构带来了新的发展机遇。“DeepSeek通过MOE技术大幅降低了激活参数比，使得模型在同等效果下所需算力显著减少，这一变化为芯片设计提供了新的平衡点。”李春强说道。RISC-V是一款开源且免费的CPU指令集架构。与x86和ARM等传统指令集架构相比，RISC-V不仅完全免费开放，还支 ...

8 小时

DeepSeek如何为RISC-V架构开启新篇章？

在AI浪潮席卷之际，阿里巴巴达摩院的资深技术专家李春强近日在采访中表示，DeepSeek模型的崛起正为RISC-V架构带来前所未有的发展机遇。李春强指出，基于MOE技术，DeepSeek有效降低了激活参数比例，使得在保持相同效果的基础上，所需的计算能力大幅度减少。这一进步无疑为芯片设计领域设定了一个新的平衡点。

3 小时

百度也重新站队，被DeepSeek“架”着走的大模型厂商开源盈利路在何方？

DeepSeek正在撼动当前AI大模型的市场格局。有行业人士表示，大模型仍然保持超高速迭代的态势，“过时的”模型几乎无人问津。“在大模型领域，想利用短期的算法技术优势或商业模式来打造形成长期的竞争壁垒，目前看来是不可能的。”该业内人士称。

8 小时

重塑AI算力格局：DeepSeek 驱动RISC-V崛起

阿里巴巴达摩院资深技术专家李春强在采访时表示，DeepSeek模型的火爆为RISC-V架构带来了新的发展机遇。“DeepSeek通过MOE技术大幅降低了激活参数比，使得模型在同等效果下所需算力显著减少，这一变化为芯片设计提供了新的平衡点。”李春强说道。RISC-V是一款开源且免费的CPU指令集架构。与x86和ARM等传统指令集架构相比，RISC-V不仅完全免费开放，还支持自定义指令扩展，因此被视为 ...

来自MSN12 小时

DeepSeek开源第二天，发了一个比OpenAI十二天直播还硬的硬货。

刚肝完Claude 3.7 Sonnet，睡了两小时，马不停蹄的又起来看DeepSeek开源项目。结果时间线上先刷到的是阿里的推理模型QwQ-Max的预览版。。。不是哥们，早上5点发，这也太抽象了。。。

新浪网6 天

DeepSeek开源周第二天：DeepEP亮相，为MoE和EP量身定制的高效通信库

今天发布的是 DeepEP，第一个用于混合专家（MoE，Mixture of Experts）模型训练和推理的开源 EP 通信库。 EP 的全名是 Expert Parallelism，又称专家并行。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果