Learning - 搜索 News

资讯

快手Kwaipilot团队全面复现DeepSeek-R1-Zero数学代码能力，训练步数仅需其1/10

4月23日，快手Kwaipilot团队发布全新大模型训练方法SRPO并宣布开源。该方法仅用 GRPO 1/10的训练成本，在数学与代码双领域基准测试中实现性能突破：AIME2024 得分50，LiveCodeBench ...

23 分钟

快手团队仅需1/10训练成本复现DeepSeek-R1-Zero数学代码能力，SRPO方法 ...

4月23日，快手Kwaipilot团队宣布发布全新大模型训练方法SRPO，并首次将其开源。这项技术以其创新的两阶段历史重采样策略优化（SRPO）引发了业界的广泛关注，仅需GRPO的十分之一训练成本，即在数学与代码双领域基准测试中，取得了显著的性能突破。 SRPO以Qwen2.5-32B为基础模型，通过纯强化学习训练，成功在AIME2024和LiveCodeBench两个重要测试中取得了令人瞩目的得 ...

38 分钟

业内首次，全面复现DeepSeek-R1-Zero数学代码能力，训练步数仅需其1/10

如上图所示，在模型训练的早期阶段，模型几乎没有主动检查和反思先前推理步骤。然而，随着训练的进行，模型表现出明显的反思和回溯行为，形成如逐步推理、数值替换、逐一验证和自我优化等响应模式。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

资讯

今日热点