RL - 搜索 News

2 天

超越DeepSeek-R1关键RL算法GRPO，CMU「元强化微调」新范式登场

具体地，研究者利用一类新的微调方法来优化测试时计算，通过最小化累积悔值的概念产生了一种被称为元强化微调（Meta Reinforcement Fine-Tuning，MRT）的解决方案（或范式），从而为评估现有推理模型（如 ...

腾讯网17 天

Logic-RL: 小模型也能强推理，通过基于规则的强化学习提升大语言模型 ...

研究团队还分析了模型规模与训练效率之间的关系。结果表明，较大模型通常需要更少的训练步骤即可达到相同的性能水平，但较小模型通过更长时间的训练也能达到相近的性能上限。这种"规模-训练时间"权衡为资源受限环境下的模型选择提供了有价值的指导。

5 天

狂揽1.3亿美金，AlphaGo大神组队Gemini大牛，用RL打造超级智能，英伟达 ...

打造出AlphaGo的超级天才、谷歌DeepMind十二年老将Ioannis Antonoglou下场创业了，初创Reflection已融资1.3亿，种子轮由红杉资本等领投。他和Gemini的核心贡献者携手，目标是用强化学习造出真·超级AI。

知乎专栏 on MSN8 天

我的 RL 人生哲学: 写给Sutton & Barto的图灵奖时

我不知道怎么做这一篇的开场，只能先把一张从Sun Hao那边盗来的一张图放在这里，图中是第一届RL Conference（RLC）的一幕：台上神情颇为严肃的是 Andrew（Andy）Barto，台下蓄着胡须的则是 Rich ...

腾讯网13 天

DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码

选自GitHub作者：Andriy Burkov机器之心编译GRPO（Group Relative Policy Optimization）是 DeepSeek-R1 成功的基础技术之一，我们之前也多次报道过该技术，比如《DeepSeek 用的 ...

无忧资讯1 天

The Bay欠债9.5亿！债主1900家，包括政府、银行和RL、香奈儿品牌

根据法院文件，加拿大历史最悠久的百货公司哈德逊湾（Hudson’s Bay，简称HBC）目前欠债总额高达9.5亿元，涉及近1900名债权人，其中包括房东、时尚品牌、银行和加拿大各级政府。文件显示，HBC欠四家有担保债权人共计4.3亿元，分别是： ...

10 天

全球首次！2B复现DeepSeek-R1「啊哈时刻」，UCLA等用纯RL实现多模态推理

UCLA等机构的研究者发现，虽然目前已经涌现出许多试图复现DeepSeek-R1的研究，然而这些研究大多遭遇了这个难点：很难复现出R1所表现出的回答长度增加和思考模式。

16 天

诚益通新注册《激光雷达导航定位系统-RL型V1.0.0》软件著作权，彰显 ...

近日，诚益通（300430）传来好消息，公司成功注册了《激光雷达导航定位系统-RL型V1.0.0》项目的软件著作权。这一成就不仅彰显了诚益通在技术研发领域的强大实力，也为公司在智能驾驶和导航定位领域的布局增添了一笔浓墨重彩。据证券之星消息，今年以来， ...

知乎 on MSN3 天

2024 图灵奖颁给强化学习之父 Richard Sutton 及其导师，他们对人工智能 ...

昨晚（3月4日），当我正向媒体和行业领导者展示2025年强化学习（RL）智能体的巨大潜力时，RL领域的奠基人Andrew Barto和Rich Sutton荣获了图灵奖。这是一个特别幸运的时刻，我有幸与Rich Sutton本人多次深入交流，不论是在强化学习大会上，还是在我博士导师Ben Van ...

1 天

拉夫劳伦3月13日成交额为2.56亿美元在当日美股中排第349名

2025年3月13日，服装、服饰与奢侈品公司拉夫劳伦（RL）成交额为2.56亿美元，在当日美股中排第349名，成交额较昨日增加16.01%，当日成交量为118.11万。拉夫劳伦（RL）于2025年3月13日跌3.81%，报216.68美元，该股过去5个交易日跌9.09%，整个3月跌20.09%，年初至今跌6.19%，过去52周涨18.53%。

来自MSN1 个月

为什么我还是觉得DeepSeek-R1-Zero的纯RL也不是“真的”RL，就是监督学习？

这个时候，RL就是必须的了。即不是根据(st,at)数据对做训练。而是根据整个策略的生成轨迹来训练。因此，从这个角度看，DeepSeek-R1-zero算是纯RL。（ ...

来自MSN8 天

Alibaba 新开源模型 QwQ-32B：以更小算力匹敌 DeepSeek-R1

阿里巴巴旗下的 Qwen 团队推出了 QwQ-32B，这是一款拥有 320 亿参数的推理模型，旨在通过强化学习提升复杂问题解决任务的表现。该模型在 Hugging Face 和 ModelScope ...

当前正在显示可能无法访问的结果。

隐藏无法访问的结果