Rl - 搜索 News

腾讯网1 天

Logic-RL: 小模型也能强推理，通过基于规则的强化学习提升大语言模型 ...

研究团队还分析了模型规模与训练效率之间的关系。结果表明，较大模型通常需要更少的训练步骤即可达到相同的性能水平，但较小模型通过更长时间的训练也能达到相近的性能上限。这种"规模-训练时间"权衡为资源受限环境下的模型选择提供了有价值的指导。

11 天

不蒸馏 R1 也能超越 DeepSeek，上海 AI Lab 用 RL 突破数学推理极限

从 Qwen2.5-32B-Base 模型出发，仅通过微调和基于结果反馈的强化学习，在不蒸馏超大模型如 DeepSeek-R1 的情况下，就能超越 DeepSeek-R1-Distill-Qwen32B 和 OpenAI-O1 ...

腾讯网16 小时

平陆运河桥梁G325广南线钦江大桥拱肋最大组合节段成功吊装

2月24日，由中铁上海工程局集团五公司承建的平陆运河桥梁G325广南线钦江大桥拱肋最大组合节段成功吊装，标志着项目建设取得重要进展，进入主桥施工阶段。

12 小时

DeepSeek开源第四弹“教”优化，梁文锋参与研发

2月27日，DeepSeek开源周（OpenSourceWeek）第四弹来了，DeepSeek在X上宣布这次开源的是三项优化并行策略，并在Github上详细展开了DeepSeek-V3和R1模型背后的并行计算优化技术，通过这些阐述可以清晰了解团队是如 ...

来自MSN22 天

RL崛起，SFT已死？仅用1/140成本，批判微调CFT媲美DeepSeek-R1复现模型

DeepSeek R1/R1-Zero让RL大火，SFT就无用了吗？滑铁卢与卡内基梅隆大学带来一种全新范式批判微调（CFT：Critique Fine-Tuning，已开源），即让模型学习对有噪声的回答进行批判，而不是简单地模仿正确的回答。在Qwen2.5、Qwen2.5-Math和DeepSeek-Math等不同基础模型上，CFT在六个数学基准测试中相较于SFT平均提高了4-10% CFT受到 ...

9 小时

人工智能赋能产业新变革

随着人工智能（AI）技术的迅猛发展，全球产业格局正经历一场前所未有的变革。从制造业到医疗健康，从金融到教育，AI技术正在深度赋能各行各业，推动生产效率提升、商业模式创新以及用户体验优化。在这场变革中，AI不仅是技术工具，更是推动产业升级和经济高质量发 ...

3 小时

最近，投资人都在打听的王琛是谁？

根据路边消息社爆料，最近，投资人们都去清华打听王琛了，而他正是九坤投资的创始人。不同于浙大毕业的梁文锋，王琛毕业于清华数学物理专业。他曾就职于华尔街对冲基金千禧年，2010年前后，恰逢国内股指期货上市，身在美国的王琛认为国内机会千载难逢，同年和姚齐聪 ...

2 小时

JDM的280匹君子协定：是真自律还是行业默契？

随着时间的推移，这一协定逐渐被打破。2004年，本田推出了新款Legend（在美国以讴歌RL销售），其搭载的3.5升V6发动机在日本市场的功率达到了300马力，这标志着JDM君子协定的正式瓦解。此后，日本汽车制造商开始宣称其车型的真实性能，推出了一系 ...

18 天

清华CMU团队揭示：RL足以实现AI长思维链的关键突破

该研究的背景来源于长CoT在AI大模型中的重要性。长思维链指的是人工智能在处理任务时，通过逐步推导与推理，得出更复杂的答案，这种能力的提升无疑为提升AI模型的推理深度和可解释性提供了新的方向。然而，高效地触发长CoT的条件及其优化策略依然未被完全掌握。研究团队对此进行了深入分析，提出了以下四个关键发现： ...

来自MSN5 小时

量化大佬王琛：继梁文锋后，投资人争相拜访的AI大模型新星

在投资界内，一场围绕着AI大模型的狂热追逐正在悄然上演。一位不愿透露姓名的投资人透露，他近期频繁奔波于杭州与北京之间，目的只为能够一睹那些AI领域的重量级人物。 “真是让人头疼，这些做量化的家伙，简直是把大模型的市场搅得天翻地覆！”他感叹道。他所指的，正是近期在AI界掀起波澜的几家量化投资公司。

sinchew12 天

RL能源传22%股权待售多方觊觎

（吉隆坡15日讯）RL能源（RL,0219,主板能源组）传有一批约22%的股权待售，其中包括大股东Reservoir Link控股私人有限公司（RLHSB）持有的19.47%股权。消息人士向财经周刊《The Edge》透露，有一方已表达出收购这批股权的意愿。“有一方已有兴趣购买上述股权，但实际洽商阶段仍不明朗。”另一位消息人士说，潜在买家身分仍不清楚，而实际出售的股权可能多过22%。RL能源不愿对 ...

10 小时

华广瑞特：以“数”为媒开启“云”上管理血糖新模式

华广瑞特：以“数”为媒开启“云”上管理血糖新模式,方舟,商汤,华广瑞特 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果