AHA Momennt - 搜索 News

除了发布该模型，他们还发布了一篇研究论文，详细说明了他们是如何实现这一切的。在这篇论文[1]中，他们描述了在使用纯强化学习训练模型时的一个“ aha moment”（顿悟时刻）。在这一阶段，DeepSeek-R1-Zero（ DeepSeek-R1 的首次测试版本）学会了通过重新评估 ...

5 天

【新智元导读】最近某个华人团队发现：类似DeepSeek-R1-Zero的「顿悟时刻」，可能并不存在。类似复现实验中之所以出现响应变长现象，或许只是因为强化学习，而不是所谓的「顿悟」。最近，「啊哈时刻」（Aha ...

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@ ...

3 天

DeepSeek R1 的一个重要优势在于它能够将高级推理能力迁移到较小的模型中。DeepSeek 团队生成了 60 万条推理数据，在 Qwen 和 Llama 等开源模型上证明了这种迁移能力。即使不使用强化学习，直接从 R1 ...

12 小时

因为根据DeepSeek的研究，模型的进步并非均匀渐进的。在强化学习过程中，响应长度会出现突然的显著增长，这些"跳跃点"往往伴随着解题策略的质变。这种模式酷似人类在长期思考后的突然顿悟，暗示着某种深层的认知突破。

来自MSN22 小时

近日，杭州深度求索人工智能基础技术研究有限公司（以下简称“深度求索”）正式发布DeepSeek-R1模型。该模型号称在数学、代码、自然语言推理等任务上，性能比肩美国OpenAI公司最新的o1大模型正式版。看到这一消息，你也许又懵了，DeepSeek ...

1 天

智东西2月12日消息，近日，OpenAI联合创始人、前特斯拉AI总监、知名计算机科学家李飞飞的爱徒安德烈·卡帕西（Andrej ...

作者丨李广密编辑丨penny，Siqi来源丨海外独角兽（ID：unicornobserver）DeepSeek 超越 OpenAI 了吗？DeepSeek 超越了 Meta Llama 毫无疑问，但相比 OpenAI、Anthropic 和 ...

3 天

举例来说，前 Meta AI 员工、著名 AI 论文推特博主 Elvis 指出， DeepSeek-R1 的论文堪称珍宝，因为它深入探讨了提升大语言模型推理能力的多种途径，并揭示了其中的显著涌现特性。

知乎 on MSN5 天

大概是两方面原因：第一，推理模型在思考时的语言本身就是混乱的，甚至不一定是某种具体的语言；第二，OpenAI o3-mini 给出的不是真正的思维过程，而是用专门的模型总结生成的，所以可能是二次补全生成 CoT 时出现的幻觉。 OpenAI 的 o ...

2月5日，新春开工第一天，中集车辆在中集集团总部101会议室成功举办了“迎新春·读书活动”。作为公司的年度员工活动，该活动一方面传递管理层对员工的新年寄语，激励员工不断进行自我成长；一方面增强员工的交流和协同，提升凝聚力与向心力。中集车辆集团中集车辆 ...

一些您可能无法访问的结果已被隐去。