资讯

4月23日,快手Kwaipilot团队发布全新大模型训练方法SRPO并宣布开源。该方法仅用 GRPO 1/10的训练成本,在数学与代码双领域基准测试中实现性能突破:AIME2024 得分50,LiveCodeBench ...
4月23日,快手Kwaipilot团队宣布发布全新大模型训练方法SRPO,并首次将其开源。这项技术以其创新的两阶段历史重采样策略优化(SRPO)引发了业界的广泛关注,仅需GRPO的十分之一训练成本,即在数学与代码双领域基准测试中,取得了显著的性能突破。 SRPO以Qwen2.5-32B为基础模型,通过纯强化学习训练,成功在AIME2024和LiveCodeBench两个重要测试中取得了令人瞩目的得 ...
如上图所示,在模型训练的早期阶段,模型几乎没有主动检查和反思先前推理步骤。然而,随着训练的进行,模型表现出明显的反思和回溯行为,形成如逐步推理、数值替换、逐一验证和自我优化等响应模式。