来自 Mirae Asset Securities Research (韩国未来资产证券)的分析称,V3 的硬件效率之所以能比 Meta 等高出 10 倍,可以总结为“他们从头开始重建了一切”。 在使用英伟达的 H800 GPU 训练 DeepSeek-V3 时,他们针对自己的需求把 132 个流式多处理器(SMs)中的 20 个修改成负责服务器间的通信,而不是计算任务 。
中国人工智能初创公司DeepSeek的崛起,证明了其能够以低成本提供高性能人工智能技术,这正促使韩国半导体巨头SK海力士和三星电子重新考虑其战略。这两家公司长期以来一直依赖向人工智能市场的主要参与者英伟达供应高带宽内存 (HBM)。
在春节假期的余温中,“来自东方的神秘力量”DeepSeek引发的热议依旧如火如荼。北京时间1月31日,英伟达宣布DeepSeek-R1模型已登陆NVIDIA NIM,同时,亚马逊和微软也相继接入这一前沿大语言模型。英伟达称,DeepSeek-R1是当前最先进的大语言模型。
英伟达刚刚从 DeepSeek-R1 引发的 4 万亿元暴跌中缓过劲来,又面临新的压力? 硬件媒体 Tom's Hardware 带来开年最新热议:DeepSeek 甚至绕过了 CUDA,使用 ...
这一次是DeepSeek-V3论文中的更多细节,被人挖掘出来。 来自Mirae Asset Securities Research(韩国未来资产证券)的分析称,V3的硬件效率之所以能比Meta等高 ...
这一次是DeepSeek-V3论文中的更多细节,被人挖掘出来。 来自Mirae Asset Securities Research(韩国未来资产证券)的分析称,V3的硬件效率之所以能比Meta等高 ...
各路业内人士从不同角度分析 DeepSeek 的模型和技术。 韩国 Mirae Asset Securities Research 的一名分析师在 X 撰写长文分析称,这一突破是通过实施大量细粒度优化和使用英伟达的汇编式 PTX 编程实现的,而非通过 CUDA 中的某些功能。CUDA 是由英伟达开发的一种通用编程 ...
而PTX在接近汇编语言的层级运行,允许进行细粒度的优化,如寄存器分配和Thread / Warp级别的调整。这种编程非常复杂且难以维护,所以行业通用的做法是使用CUDA这样的高级编程语言。 “这凸显了DeepSeek非凡的工程水平,并表明美国对华制裁加剧的“GPU短缺危机”激发了他们紧迫感和创造力。”韩国Mirae Asset Securities Research的一名分析师表示。
这一次是DeepSeek-V3论文中的更多细节,被人挖掘出来。 来自Mirae Asset Securities Research(韩国未来资产证券)的分析称,V3的硬件效率之所以能比Meta等高 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果