reinforcement learning

资讯

2 天

近年来，强化学习（Reinforcement Learning, RL）作为人工智能领域的重要分支，经历了飞速的发展。从最初的学术探索到如今的广泛应用，强化学习的演变不仅改变了人工智能的研究方向，也为多个行业带来了革命性的变化。在这篇文章中，我们将回顾强化学习过去十年的发展历程，探讨其未来可能的走向。强化学习的早期阶段强化学习的起源可以追溯到20世纪50年代，但真正引起学术界广泛关注是在近年来 ...

4 天

DeepSeek提出通用奖励模型新方法SPCT，探索推理时缩放提升AI对齐效率 ...

此前有消息称 DeepSeek 或将提前推出原定于在五月份初发布的 R2 模型。消息是否属实还有待考量，不过在此之前，DeepSeek 刚刚新发布的一项关于推理时缩放的新研究，或许能让我们窥到 R2 的一角。

4 天

DeepSeek提出通用奖励模型新方法SPCT，或将应用于R2

8 天

自动学会工具解题，RL扩展催化奥数能力激增17%

实验表明，这种方法在数学推理任务上取得了显著突破： ToRL-7B 在 AIME24 上达到了 43.3% 的准确率，比不使用工具的基线 RL 模型提高了 14%，比现有的工具集成大模型提高了 17%。

8 天on MSN

2025年图灵奖：强化学习的前世今生

经济观察报陈永伟/文 3月5日，安德鲁·巴托（Andrew Barto）和理查德·萨顿（Richard Sutton）因在强化学习（Reinforcement ...

亿欧 on MSN9 天

200美金，人人可手搓QwQ，清华、蚂蚁开源极速RL框架AReaL

本周，蚂蚁技术研究院和清华大学交叉信息院吴翼团队，联合发布了训练速度最快最稳定的开源强化学习训练框架 AReaL（Ant Reasoning RL），并公开全部数据和完成可复现的训练脚本。

凤凰网28 天

阿里通义团队开源R1-Omni：多模态模型+RLVR，让各模态作用清晰可见

Reinforcement Learning with Verifiable Reward（RLVR）方法的出现，为多模态任务提供了全新的优化思路，无论是几何推理、视觉计数，还是经典图像分类和物体 ...

IT之家28 天

阿里通义团队开源 R1-Omni：多模态模型 + RLVR，让各模态作用清晰可见

IT之家3 月 11 日消息，随着 DeepSeek R1 的推出，强化学习在大模型领域的潜力被进一步挖掘。Reinforcement Learning with Verifiable Reward（RLVR）方法的出现，为多模态任务提供了全新的优化思路，无论是几何推理、视觉计数，还是经典图像分类和物体检测任务，RLVR 都展现 ...

腾讯网1 个月

DeepSeek 背后的技术：GRPO，基于群组采样的高效大语言模型强化学习 ...

强化学习（Reinforcement Learning, RL）已成为提升大型语言模型（Large Language Models, LLMs）推理能力的重要技术手段，特别是在需要复杂推理的任务中。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果