Rl - 搜索 News

o3拿下IOI 2024金牌！新论文公布RL秘诀：AI自己设计测试时推理策略 ...

有网友注意到，o1-ioi在IOI 2024上表现出色，是因为它为每个问题生成了10000个候选解决方案，还用上了复杂的test-time策略；而o3在严格限制下达到顶级选手水平，仅用了50次提交，且无人工策略干预。

18 天

该研究的背景来源于长CoT在AI大模型中的重要性。长思维链指的是人工智能在处理任务时，通过逐步推导与推理，得出更复杂的答案，这种能力的提升无疑为提升AI模型的推理深度和可解释性提供了新的方向。然而，高效地触发长CoT的条件及其优化策略依然未被完全掌握。研究团队对此进行了深入分析，提出了以下四个关键发现： ...

腾讯网18 天

SFT并非必需！推理模型仅靠RL就能获得长思维链能力 | 清华CMU团队

鉴于此，团队选择用阿里通义的QwQ-32B-Preview来提炼长CoT，用阿里通义的Qwen2.5-Math-72B-Struct来提炼短CoT。譬如在MATH-500上，长CoT SFT的准确率超过70%，tokens达到3.5B时仍然没有进入瓶颈期。

11 天

不蒸馏 R1 也能超越 DeepSeek，上海 AI Lab 用 RL 突破数学推理极限

从 Qwen2.5-32B-Base 模型出发，仅通过微调和基于结果反馈的强化学习，在不蒸馏超大模型如 DeepSeek-R1 的情况下，就能超越 DeepSeek-R1-Distill-Qwen32B 和 OpenAI-O1 ...

sinchew12 天

RL能源传22%股权待售多方觊觎

（吉隆坡15日讯）RL能源（RL,0219,主板能源组）传有一批约22%的股权待售，其中包括大股东Reservoir Link控股私人有限公司（RLHSB）持有的19.47%股权。消息人士向财经周刊《The Edge》透露，有一方已表达出收购这批股权的意愿。“有一方已有兴趣购买上述股权，但实际洽商阶段仍不明朗。”另一位消息人士说，潜在买家身分仍不清楚，而实际出售的股权可能多过22%。RL能源不愿对 ...

来自MSN22 天

RL崛起，SFT已死？仅用1/140成本，批判微调CFT媲美DeepSeek-R1复现模型

DeepSeek R1/R1-Zero让RL大火，SFT就无用了吗？滑铁卢与卡内基梅隆大学带来一种全新范式批判微调（CFT：Critique Fine-Tuning，已开源），即让模型学习对有噪声的回答进行批判，而不是简单地模仿正确的回答。在Qwen2.5、Qwen2.5-Math和DeepSeek-Math等不同基础模型上，CFT在六个数学基准测试中相较于SFT平均提高了4-10% CFT受到 ...

阿思達克財經網21 天

《业绩》Ralph Lauren(RL.US)第三财季盈收胜预期上调年度预测

奢侈服饰品牌Ralph Lauren(RL.US)公布，在假期季节销售带动下，截至12月28日第三财季净利润按年增逾7%至2.97亿美元，经调整每股盈利为4.82美元，高於市场预期的4.53美元。季内收入增10%至21.4亿美元，同样高於市场预期的20.1亿美元。北美、欧洲和亚洲支撑营收增长。相关内容美国1月31日API原油库存变动为502.5万桶，高於之前的286万桶，预测值为317万桶。

来自MSN14 天

4500美元复刻DeepSeek神话，1.5B战胜o1-preview只用RL！训练细节全公开

编辑：编辑部【新智元导读】只用4500美元成本，就能成功复现DeepSeek？就在刚刚，UC伯克利团队只用简单的RL微调，就训出了DeepScaleR-1.5B-Preview，15亿参数模型直接吊打o1-preview，震撼业内。强化学习迎来重大突破！

一些您可能无法访问的结果已被隐去。

显示无法访问的结果