机器之心授权发布作者:王子涵我们都知道,DeepSeek-R1 的训练过程使用了一种名为专家混合模型(Mixture-of-Experts, MoE)的技术,而当前的 MoE ...
名叫 CoE(Chain-of-Experts) ,被认为是一种“免费午餐”优化方法,突破了MoE并行独立处理token、整体参数数量较大需要大量内存资源的局限。 研究团队在实验中发现,经过2次迭代的CoE,在相同的计算预算下将数学任务的验证损失从1 ...
在AI浪潮席卷之际,阿里巴巴达摩院的资深技术专家李春强近日在采访中表示,DeepSeek模型的崛起正为RISC-V架构带来前所未有的发展机遇。李春强指出,基于MOE技术,DeepSeek有效降低了激活参数比例,使得在保持相同效果的基础上,所需的计算能力大幅度减少。这一进步无疑为芯片设计领域设定了一个新的平衡点。
汤姆猫接受机构调研时表示,在底层模型上,汤姆猫AI情感陪伴机器人产品采用MoE(混合专家模型)架构,搭载了公司与西湖心辰定制的“汤姆猫情感陪伴垂直模型”,同时也调用了豆包、DeepSeek等模型的部分能力,有效增强了产品的意图识别、响应速度、数学能力等功能。后续公司持续关注AI大模型的升级与应用,根据产品的迭代需要积极利用优秀模型的能力,不断提升产品的功能和服务,满足多年龄段用户群体的多样化需求, ...
2月27日,DeepSeek宣布开源Optimized Parallelism Strategies。与此同时,英伟达开源了首个在Blackwell架构上优化的DeepSeek-R1,实现了推理速度提升25倍,并且每token成本降低20倍的惊人成果 ...
DeepGEMM通过FP8和硬件级优化解决了大模型计算效率和资源消耗的问题,尤其是对MoE模型的落地提供了关键支持。其开源行为不仅加速了技术民主化,还可能成为AI计算生态的基础设施,推动行业向更高效、低成本的方向发展。FP8作为AI计算的新兴标准,可以加速千亿参数模型的训练,降低显存需求。在边缘设备或云端部署时,FP8的低精度计算能显著提升吞吐量,降低成本。因此,开源DeepGEMM可以推动FP8 ...
2月26日,在开源周第三天,DeepSeek宣布开放高效的FP8 GEMM库DeepGEMM。这三天的发布内容都与算法相关,偏向技术层面。大模型生态社区OpenCSG创始人陈冉举例说,以前DeepSeek直接提供一个产品并说明其性能,现在则深入探讨实现高性能的具体方法和框架。这些“脚手架”的开源有助于后续生态建设。 此次发布的关键词是GEMM(通用矩阵乘法),这是一种线性代数中的基本运算。FP8 ...
昨天是DeepSeek“开源周”第二日,DeepSeek宣布开源DeepEP,第一个用于MoE模型训练和推理的开源EP通信库。在宣布后的约20分钟内,DeepEP已在GitHub、微软等平台上获得超过1000个收藏。
品玩2月25日讯,DeepSeek开源全新项目 DeepEP,这是一个面向MoE模型训练与推理的开源EP通信库,专门针对Hopper GPU(未来可能支持更多架构或设备)优化通信效率。
从带飞GPU推理速度的FlashMLA到开源EP通信库,DeepSeek开源周第二大重磅发布再次点燃AI圈的热情。本周后续,DeepSeek还将开源三个代码库,或许会与AI算法优化、模型轻量化、应用场景拓展等相关,涵盖多个关键领域。
DeepEP 是一款专为混合专家(MoE)和专家并行(EP)设计的通信库,提供了 高吞吐量和低延迟的 all-to-all GPU 内核 ,常用于 MoE 派发和合并操作。该库还支持低精度计算,包括 FP8。
经实测,FlashMLA在H800 SXM5平台上(CUDA 12.6),在内存受限配置下可达最高3000GB/s,在计算受限配置下可达峰值580 TFLOPS。。