上下文 contextual - 搜索 News

15 小时

今天，MoBA 的一位主要研发同学 Andrew Lu 在知乎发帖，自述研发过程的三次踩坑，他称为 “三入思过崖”。他在知乎的签名是“新晋 LLM 训练师”。注意力机制之所以重要，是因为它是当前大语言模型（LLM）的核心机制。回到 2017 年 6 ...

11 小时

简单来说，DeepSeek-V3仅使用了2048块英伟达H800 GPU，耗费了557.6万美元就完成了训练，相比同等规模的模型（如GPT-4、GPT-4o、Llama 3.1），训练成本大幅降低。

23 小时

智东西2月20日报道，用48小时破解生物学家苦心钻研10年的“超级细菌”难题，还可免费申请使用，这是谷歌研究院（Google Research）昨日在AI for Science领域发布的最新成果：一个基于Gemini 2.0构建的AI协作科学家。

阿里妹导读本篇主要简单介绍了在AI时代由‘大参数、大数据、大算力’需求下，对GPU算力管理和分配带来的挑战。以及面对这些挑战，GPU算力需要从单卡算力管理、单机多卡算力管理、多机多卡算力管理等多个方面发展出来的业界通用的技术。一、前言目前很多关于大模 ...

一些您可能无法访问的结果已被隐去。