cuda - 搜索 News

2 天

DeepSeek并没有完全跳出英伟达的CUDA框架，而是选择绕过了CUDA的高层API，直接操作PTX指令集，进行更细粒度的硬件优化。这种做法本质上是在原有框架内寻求突破，而非彻底脱离英伟达的生态系统。为什么选择PTX？这到底是突破，还是妥协？为什么 ...

1 天

近年来，人工智能（AI）领域的发展迅速，各种新技术层出不穷，其中自动化模型训练的工具尤其引人注目。最近，由SakanaAI推出的被称为「AI ...

1 天

【新智元导读】高调亮相的世界首个「AI CUDA工程师」，宣称能让模型训练速度飙升100倍，如今却上演了一场「作弊」闹剧。OpenAI研究员用o3-mini，11秒便发现了内核代码有bug！

来自MSN2 天

在当今的科技世界里，人工智能（AI）技术已经成为推动各行各业变革的重要力量。然而，随着AI在计算能力和应用领域上的快速增长，大家开始逐渐意识到一个问题：现有的AI系统需要消耗大量的电力和计算资源，这样的模式是否能持续？

5 天

DeepSeek并未完全绕开CUDA，而是选择绕过了其高层API，直接操作PTX指令集进行底层优化。这种做法虽然能在一定程度上提升计算效率，但本质上仍依赖英伟达的硬件架构和指令集。PTX的优势在于提供了对GPU硬件的底层控制，但这种优化需要开发者具备 ...

5 天

Transformer论文八位作者之一Llion Jones创立的Sakana AI发布重磅成果——全球首个「AI CUDA工程师」！它能将PyTorch代码自动转换为高度优化的CUDA内核，速度比PyTorch原生实现快10-100倍。

【TechWeb】2月26日消息，在宣布开源MLA解码核FlashMLA以及DeepEP两款代码库后，DeepSeek在开源周的第三天宣布开放DeepGEMM代码库。DeepSeek介绍，DeepGEMM是专为简洁高效的FP8通用矩阵乘法（GEMMs ...

13 小时

2月26日消息，DeepSeek公司在开源周期间继续推进其技术开放计划。在早前宣布开源MLA解码核FlashMLA以及DeepEP两款代码库之后，该公司于第三天正式开放了DeepGEMM代码库。

5 天on MSN

【华泰证券：DeepSeek有望加快模型训练与CUDA的解耦进程】华泰证券研究指出，DeepSeek在V3中运用了相较CUDA更为底层的PTX来优化硬件算法，PTX是CUDA编译的中间代码，在CUDA和最终机器码之间发挥着桥梁作用。而NSA则采用了O ...

3 天

英伟达在其最新的RTX 50系列显卡中做出了一项重大调整，这一变化引起了游戏玩家和硬件爱好者的广泛关注。据最新消息，RTX ...

简单的说就是此次RTX 50系列显卡的更新相当于从驱动层面移除了对32位应用的支持，这种“纯负优化”对老游戏的运行产生了较大影响。老游戏可能会遇到帧率暴跌、特效缺失等问题，严重影响游戏体验。

一些您可能无法访问的结果已被隐去。