sober - 搜索 News

资讯

22 小时

强化学习的改进只是「噪音」？最新预警：冷静看待推理模型进展

论文指出，在 AIME24 等小型基准测试中，结果极不稳定：仅仅改变一个随机种子就足以使得分发生几个百分点的变化。当在更可控和标准化的设置下评估强化学习模型时，其收益会比最初报告的要小得多，而且通常不具有统计显著性。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果