蒸馏 distillation AND (翻译 OR 英文 OR 英语 OR 双语)

DeepSeek的V3模型的最后一轮训练，仅用557.6万美元的GPU使用成本，就训练出了全球前沿模型，并在后续发布与OpenAI o1推理模型能力不相上下的DeepSeek ...

知识蒸馏方法探究：Google Distilling Step-by-Step 论文深度分析

点击上方“Deephub Imba”,关注公众号,好文章不错过 !大型语言模型 (Large Language Models, LLMs) 的发展日新月异。从最初的简单对话系统，到如今能够执行文本生成、语言翻译和代码编写等复杂任务的先进模型，LLM ...

至顶头条 on MSN2 天

终端侧AI，如何从DeepSeek的连锁反应中受益？

或许AI的下一波创新，不仅是比拼谁的模型更大，还要看谁能让AI更轻便、更普及、更贴近生活。

6 天

DeepSeek-R1下载量破千万：这不是AI的斯普特尼克时刻，而是开源的胜利

发布仅仅一个月左右，DeepSeek-R1成为Hugging Face平台上有史以来最受欢迎的模型，其衍生出的数千个变体模型下载量突破了1000万次！2月14日，Hugging Face联合创始人Clément Delangue在推特上激动宣布。

腾讯网2 天

细致扒一下DeepSeek-R1论文到底讲了些什么

作者：answer论文原文链接: https://arxiv.org/pdf/2501.12948作者原文链接：https://zhuanlan.zhihu.com/p/205302041461、Approach先前的大型语言模型（LLMs）相关的很多工作里都依赖大量的人工标注的数据去提升模型性能。但在Deep Seek R1这篇论文中指出：模型的推理能力（reasoning capabiliti ...

10 天

本想去谷歌捞一笔就跑，却成了改变AI历史的人｜Transformer作者对话 ...

现任首席科学家 Jeff Dean 、出走又回归的Transformer作者 Noam Shazeer ，与知名播客主持人Dwarkesh Patel展开对谈。

10 天

本想去谷歌捞一笔就跑，却成了改变AI历史的人

Noam Shazeer补充，在进行异步训练时，每个模型副本会独立进行计算，并将梯度更新发送到中央系统进行异步套用。虽然这种方式会使得模型参数略有波动，理论上会有影响，但实践证明它是成功的。

FT中文网24 天

OpenAI称有证据表明中国的深度求索利用其模型训练竞争对手

总部位于旧金山的ChatGPT制造商告诉英国《金融时报》，他们发现了一些“蒸馏”(distillation)的证据，怀疑这些证据来自深度求索。开发人员使用这种技术，通过利用更大、更强大的模型的输出，在较小的模型上获得更好的性能，从而以更低的成本在特定任务上 ...

红板报 on MSN10 天

量子位的报道

梦晨一水发自凹非寺量子位 | 公众号 QbitAI 谷歌两位大佬回应一切：从PageRank到AGI的25年。现任首席科学家Jeff Dean、出走又回归的Transformer作者Noam Shazeer，与知名播客主持人Dwarkesh ...

美国之音25 天

DeepSeek 震撼硅谷和华尔街，但内容审查恐令其在国际市场遇挑战

代码已经复制到剪贴板。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果