cuda - 搜索 News

8 小时on MSN

DeepSeek公司在近期举行的开源周活动中，持续推动其技术开放步伐，继MLA解码核FlashMLA和DeepEP代码库之后，再度迈出重要一步，正式对外公布了DeepGEMM代码库。

DeepSeek代码开源第三弹：DeepGEMM代码库，V3/R1的训练推理动力

【TechWeb】2月26日消息，在宣布开源MLA解码核FlashMLA以及DeepEP两款代码库后，DeepSeek在开源周的第三天宣布开放DeepGEMM代码库。DeepSeek介绍，DeepGEMM是专为简洁高效的FP8通用矩阵乘法（GEMMs ...

1 天

官方承认系统「作弊」，世界首个「AI CUDA工程师」翻车？o3-mini 11秒 ...

「将进化优化与LLM结合使用确实非常强大，但它也可能找到绕过验证沙盒的方法。幸运的是，我们的读者帮助测试了我们的CUDA内核，并发现系统找到了某种作弊方式。例如，系统在评估代码中发现了一个内存漏洞，在某些情况下，它能够绕过正确性检查。

2 天

RTX 50系列遇尴尬：32位PhysX老游戏性能竟不如GTX 980Ti？

英伟达近期推出的RTX 50系列图形处理器（GPU）做出了一项重大变更，宣布不再支持32位CUDA应用程序，这一决定对众多经典游戏玩家来说无疑是一个打击。特别是那些依赖于32位PhysX引擎的老游戏，在RTX ...

来自MSN2 天

全球首个AI CUDA工程师来了！将PyTorch原生实现提速10-100倍

在当今的科技世界里，人工智能（AI）技术已经成为推动各行各业变革的重要力量。然而，随着AI在计算能力和应用领域上的快速增长，大家开始逐渐意识到一个问题：现有的AI系统需要消耗大量的电力和计算资源，这样的模式是否能持续？

3 天on MSN

RTX 50系列GPU放弃对32位CUDA支持，老显卡成PhysX游戏“救星”

IT之家 2 月 23 日消息，英伟达在其最新的 RTX 50 系列（Blackwell）显卡中停止了对 32 位 CUDA 应用的支持，多年来，对 PhysX 技术的支持也在逐渐减少。YouTube 博主 VerbalSilence 和一位 ...

4 天

曝有一部分的RTX 5090显卡存在缺陷:ROP光栅单元缺失性能损失最多可达 ...

至于性能影响如何，信源表示目前来看最多损失10％，但大多数游戏中都不会很明显，具体取决于游戏是否依赖ROP单元。外媒TPU测试也是如此，《艾尔登法环》损失了大约5.6％，但其他游戏微乎其微，甚至没有变动。

4 天

2025年DeepSeek战略创新分析报告

4. 发展展望：报告认为，DeepSeek为中国AI产业发展提供了成功范例。借助中国在算法和数据方面的优势，以及芯片和算力短板的逐步补齐，预计未来3 - 5年，中国在全球AI产业竞争中有望实现并跑甚至领先。中国AI科技国家队应共同打造AI产业刀锋链，推动产业持续发展。

5 天

英伟达CUDA壁垒难破，DeepSeek绕道PTX能否突围？

DeepSeek并未完全绕开CUDA，而是选择绕过了其高层API，直接操作PTX指令集进行底层优化。这种做法虽然能在一定程度上提升计算效率，但本质上仍依赖英伟达的硬件架构和指令集。PTX的优势在于提供了对GPU硬件的底层控制，但这种优化需要开发者具备 ...

5 天

英伟达消耗了全球77%的晶圆

英伟达一家公司，消耗了全球77%的人工智能加速器专用硅晶圆！摩根士丹利报告显示，这一年全球AI芯片专用300mm晶圆总产量约为69.5万片，其中53.5万片被英伟达收入囊中。这意味着，每生产4片AI芯片晶圆，就有3片最终流向英伟达的工厂。如果说Windows定义了PC时代，Android统治了移动互联网，那么英伟达的CUDA生态就是AI时代的“隐形操作系统”。全球90%以上的AI开发者依赖CUD ...

5 天

世界首个「AI CUDA工程师」诞生！AI自己写代码优化CUDA内核，性能狂飙 ...

Transformer论文八位作者之一Llion Jones创立的Sakana AI发布重磅成果——全球首个「AI CUDA工程师」！它能将PyTorch代码自动转换为高度优化的CUDA内核，速度比PyTorch原生实现快10-100倍。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果