AHA Momennt - 搜索 News

2 天

因为根据DeepSeek的研究，模型的进步并非均匀渐进的。在强化学习过程中，响应长度会出现突然的显著增长，这些"跳跃点"往往伴随着解题策略的质变。这种模式酷似人类在长期思考后的突然顿悟，暗示着某种深层的认知突破。

3 天

根据 Deepseek 公布的信息，许多人认为，只有训练更大规模的模型，才能真正发挥强化学习（RL）的威力。然而，训练大模型需要庞大的计算资源，让开源社区望而却步。目前的工作（如 TinyZero）仅在简单任务上复现了所谓的 “Aha moment” ...

4 天

DeepSeek R1 的一个重要优势在于它能够将高级推理能力迁移到较小的模型中。DeepSeek 团队生成了 60 万条推理数据，在 Qwen 和 Llama 等开源模型上证明了这种迁移能力。即使不使用强化学习，直接从 R1 ...

《生成式人工智能》作者、人工智能商业化专家丁磊博士，特意提到了DeepSeek R1模型中所展现的“aha moment”顿悟时刻，即模型学会了反思，“这证明了其不断增长的推理能力，也说明了强化学习可以带来复杂甚至意想不到的结果。” ...

知乎 on MSN7 天

大概是两方面原因：第一，推理模型在思考时的语言本身就是混乱的，甚至不一定是某种具体的语言；第二，OpenAI o3-mini 给出的不是真正的思维过程，而是用专门的模型总结生成的，所以可能是二次补全生成 CoT 时出现的幻觉。 OpenAI 的 o ...

7 天

【新智元导读】最近某个华人团队发现：类似DeepSeek-R1-Zero的「顿悟时刻」，可能并不存在。类似复现实验中之所以出现响应变长现象，或许只是因为强化学习，而不是所谓的「顿悟」。最近，「啊哈时刻」（Aha ...

有用户认为OpenAI此举是看到DeepSeek的产品效果和开源举措后，一次打破过往严防死守的“封闭”路线的跟进动作。也有用户对 OpenAI 现在才开放思维链表达不满，并称“DeepSeek免费执行此操作。” ...

16 天

在人工智能的浪潮中，中国初创公司DeepSeek探索出了新的技术路径，特别是强化学习与小模型的结合，创造出了一种具备自主学习能力的AI模型。这一事件不仅在科技界引发热议，更是对全球AI市场产生了震撼的影响。随着Meta和微软在新财报中提及这一突破，A ...

他们要求大模型必须要把思考过程写出来，通过“奖励”引导这个“学生”找到最佳方案。经历了无数次训练后，大模型这个学生迎来了“Aha moment”（顿悟时刻）。这个“顿悟”外加其他工程上的优化，DeepSeek证明了疯狂堆积算力、数据的“大力出奇迹”不是 ...

论文中被反复热议的小细节就更多了： R1-Zero模型在思考过程中涌现了“顿悟时刻”（aha moment），并自己学会为问题分配更多思考时间。网友们开始 ...

一些您可能无法访问的结果已被隐去。