RL - 搜索 News

2 天

超越DeepSeek-R1关键RL算法GRPO，CMU「元强化微调」新范式登场

具体地，研究者利用一类新的微调方法来优化测试时计算，通过最小化累积悔值的概念产生了一种被称为元强化微调（Meta Reinforcement Fine-Tuning，MRT）的解决方案（或范式），从而为评估现有推理模型（如 ...

钛媒体APP on MSN5 小时

【深度】从Manus到MCP：25年AI的三大新趋势

文 | AlphaEngineer，作者 | 费斌杰（北京市青联委员熵简科技CEO） 25年开年以来，AI发展如火如荼，DeepSeek R1、OpenAI CUA、Manus等重要创新层出不穷，眼花缭乱。

无忧资讯19 小时

The Bay欠债9.5亿！债主1900家，包括政府、银行和RL、香奈儿品牌

根据法院文件，加拿大历史最悠久的百货公司哈德逊湾（Hudson’s Bay，简称HBC）目前欠债总额高达9.5亿元，涉及近1900名债权人，其中包括房东、时尚品牌、银行和加拿大各级政府。文件显示，HBC欠四家有担保债权人共计4.3亿元，分别是： ...

1 天

MM-Eureka：极少数据实现多模态推理的R1-Zero时刻

开源框架：我们基于 OpenRLHF 开发了一个高效可扩展的多模态大规模强化学习框架，支持 InternVL 等多种模型和 RL 算法。相比 R1-V 等已有框架，我们的方案成功训练了 InternVL 2.5-38B 等大型模型。稳定训练： ...

腾讯网11 小时

Paradigm基于Reth推出完全验证的无状态以太坊节点Ress

Paradigm宣布基于Reth推出一个完全验证的无状态以太坊节点Ress（Reth ...

红板报 on MSN12 小时

从零复现，全面开源：360 Light-R1-14B/7B带来端侧AI平权时刻

性能领先、开源普惠、国产易获取的三重势能，造就了年初DeepSeek的技术平权狂热，掀起AI普惠浪潮。

虎嗅网9 小时

奥特曼向特朗普献策：再不保护，AI就要输中国了

谷歌呼吁美国建立全国统一的监管法律框架。美国不同的州有不同的法律，对于AI创新、隐私保护、数据安全等都造成了影响，也给企业合规带来了不确定性。其中有些是美国的老大难问题，例如美国甚至都没有一部全国范围内的个人数据保护法律。

什么值得买社区频道 on MSN2 天

小红书基于 PPO 的多模态大模型 RLHF 系统的设计与优化

随着大模型技术从技术变革转向产业变革，大模型应用也会进一步繁荣，传统基础设施技术已经不足以满足大模型应用的快速发展。整个基础设施技术和产业链正在快速转型，向大模型基础设施技术演变。2025 QCon 全球软件开发大会（北京站）策划了「面向 AI ...

5 天

狂揽1.3亿美金，AlphaGo大神组队Gemini大牛，用RL打造超级智能，英伟达 ...

打造出AlphaGo的超级天才、谷歌DeepMind十二年老将Ioannis Antonoglou下场创业了，初创Reflection已融资1.3亿，种子轮由红杉资本等领投。他和Gemini的核心贡献者携手，目标是用强化学习造出真·超级AI。

11 小时

国产人形机器人N2：技术革新助力3.99万量产破纪录

当谈及市场趋势时，人工智能和人形机器人的结合正迎来新的发展高峰。根据市场研究机构的数据显示，全球人形机器人市场预计将在未来几年内以超过20%的年均复合增长率扩张，带动与之相关的技术、应用场景和产业链的不断完善。这一趋势尤其体现在科技公司加大资源投入，致力于推动AI技术在非军事领域的商业化应用。同时，公众对智能机器人的认知度和接受度也在不断上升，促使这些产品逐渐走入家庭和社会。

1 天

国内首个！千帆ModelBuilder支持RFT，打破传统SFT训练效果天花板，模型 ...

在OpenAI连续12天的技术发布会上,一项名为RFT (Reinforcement-based ...

天天基金网18 小时

人形机器人“出街”秀技规模化场景落地在即

攀爬百级阶梯、侧踢腿、踢足球、四级风中稳定行走……最近一段时间里，包括宇树、天工、众擎、加速进化、领航者等多个品牌的人形机器人纷纷从实验室走出来，出街展示各种新的技能。对此，清华大学自动化系教授赵明国在接受《中国经营报》记者采访时指出，具身智能领域近期的火热与宇树机器人在央视春晚表演出圈有关，其背后也是“强化学习（RL）技术在机器人行走能力逐渐完善后，在更复杂的动作及运动控制方面取得突破的结果”。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果