MOE - 搜索 News

来自MSN2 小时

格隆汇3月4日｜据21财经，阿里巴巴达摩院资深技术专家李春强在采访时表示，DeepSeek模型的火爆为RISC-V架构带来了新的发展机遇。“DeepSeek通过MOE技术大幅降低了激活参数比，使得模型在同等效果下所需算力显著减少，这一变化为芯片设计提 ...

2 小时

DeepSeek如何为RISC-V架构开启新篇章？

在AI浪潮席卷之际，阿里巴巴达摩院的资深技术专家李春强近日在采访中表示，DeepSeek模型的崛起正为RISC-V架构带来前所未有的发展机遇。李春强指出，基于MOE技术，DeepSeek有效降低了激活参数比例，使得在保持相同效果的基础上，所需的计算能力大幅度减少。这一进步无疑为芯片设计领域设定了一个新的平衡点。

2 小时

重塑AI算力格局：DeepSeek 驱动RISC-V崛起

阿里巴巴达摩院资深技术专家李春强在采访时表示，DeepSeek模型的火爆为RISC-V架构带来了新的发展机遇。“DeepSeek通过MOE技术大幅降低了激活参数比，使得模型在同等效果下所需算力显著减少，这一变化为芯片设计提供了新的平衡点。”李春强说道。RISC-V是一款开源且免费的CPU指令集架构。与x86和ARM等传统指令集架构相比，RISC-V不仅完全免费开放，还支持自定义指令扩展，因此被视为 ...

来自MSN6 小时

DeepSeek开源第二天，发了一个比OpenAI十二天直播还硬的硬货。

刚肝完Claude 3.7 Sonnet，睡了两小时，马不停蹄的又起来看DeepSeek开源项目。结果时间线上先刷到的是阿里的推理模型QwQ-Max的预览版。。。不是哥们，早上5点发，这也太抽象了。。。

1 天

汤姆猫：公司AI情感陪伴机器人产品调用了豆包、DeepSeek等模型的部分 ...

汤姆猫接受机构调研时表示，在底层模型上，汤姆猫AI情感陪伴机器人产品采用MoE（混合专家模型）架构，搭载了公司与西湖心辰定制的“汤姆猫情感陪伴垂直模型”，同时也调用了豆包、DeepSeek等模型的部分能力，有效增强了产品的意图识别、响应速度、数学能力等功能。后续公司持续关注AI大模型的升级与应用，根据产品的迭代需要积极利用优秀模型的能力，不断提升产品的功能和服务，满足多年龄段用户群体的多样化需求， ...

5 天

DeepSeek，大消息

2月27日，DeepSeek宣布开源Optimized Parallelism Strategies。与此同时，英伟达开源了首个在Blackwell架构上优化的DeepSeek-R1，实现了推理速度提升25倍，并且每token成本降低20倍的惊人成果 ...

中华网5 天

DeepSeek开源对行业影响几何加速AI技术民主化

DeepGEMM通过FP8和硬件级优化解决了大模型计算效率和资源消耗的问题，尤其是对MoE模型的落地提供了关键支持。其开源行为不仅加速了技术民主化，还可能成为AI计算生态的基础设施，推动行业向更高效、低成本的方向发展。FP8作为AI计算的新兴标准，可以加速千亿参数模型的训练，降低显存需求。在边缘设备或云端部署时，FP8的低精度计算能显著提升吞吐量，降低成本。因此，开源DeepGEMM可以推动FP8 ...

中华网5 天

DeepSeek开源第三日行业影响几何加速AI计算生态构建

2月26日，在开源周第三天，DeepSeek宣布开放高效的FP8 GEMM库DeepGEMM。这三天的发布内容都与算法相关，偏向技术层面。大模型生态社区OpenCSG创始人陈冉举例说，以前DeepSeek直接提供一个产品并说明其性能，现在则深入探讨实现高性能的具体方法和框架。这些“脚手架”的开源有助于后续生态建设。此次发布的关键词是GEMM（通用矩阵乘法），这是一种线性代数中的基本运算。FP8 ...

6 天

DeepSeek宣布开源DeepEP 芯片需求大增

昨天是DeepSeek“开源周”第二日，DeepSeek宣布开源DeepEP，第一个用于MoE模型训练和推理的开源EP通信库。在宣布后的约20分钟内，DeepEP已在GitHub、微软等平台上获得超过1000个收藏。

品玩7 天

DeepSeek 开源新项目 DeepEP，解锁MoE模型通信瓶颈

品玩2月25日讯，DeepSeek开源全新项目 DeepEP，这是一个面向MoE模型训练与推理的开源EP通信库，专门针对Hopper GPU（未来可能支持更多架构或设备）优化通信效率。

7 天

DeepSeek又又开源了，这次拉爆GPU通信

从带飞GPU推理速度的FlashMLA到开源EP通信库，DeepSeek开源周第二大重磅发布再次点燃AI圈的热情。本周后续，DeepSeek还将开源三个代码库，或许会与AI算法优化、模型轻量化、应用场景拓展等相关，涵盖多个关键领域。

7 天

DeepSeek 开源进度 2/5：首个用于 MoE 模型训练和推理的 EP 通信库 DeepEP

DeepEP 是一款专为混合专家（MoE）和专家并行（EP）设计的通信库，提供了高吞吐量和低延迟的 all-to-all GPU 内核，常用于 MoE 派发和合并操作。该库还支持低精度计算，包括 FP8。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果