reward - 搜索 News

3 小时

新航道武汉学校学术战队教师甄选标准严格，包括教师的标准化背景、教学教研经验和过往学员及家长反馈，确保每一名战队教师热爱教育并能高效教学。学术战队教师中双一流硕士、海归硕士占比80%，研究生占比92%，雅思总分7.5分及以上，雅思一线平均教龄7年。学术 ...

头部财经3 小时

李开复：零一万物是首个全面拥抱DeepSeek模型的六小虎

零一万物CEO李开复今日在与网等媒体沟通会上指出，零一万物是行业第一个全面拥抱DeepSeek模型的六小虎，今天推出了万智企业大模型一站式平台，为希望部署DeepSeek的公司能落地三步走： ...

5 小时

从蛰伏到王炸，RL启示录

在过去这一年间，RL从一度沉沦的位置，重新走回了AI研究的闪光灯中心。2024年下半年，OpenAI率先发布了它在LLM基础上，用RL实现“深度思考”的成果——o1，设定了新的终点线。今年初，DeepSeek将赛道上的迷雾更进一步迅速驱散了，把自己的 ...

12 小时

【心与物】发现欲望的本质

欲望，一直是人类身上的驱动力，它制造了大量令人愉悦和有用的东西；而在人与人的关系中，欲望也造成了无数的问题、混乱和不幸——追求快乐的欲望。全世界的僧侣与苦行者都试图超越它，强迫自己膜拜某个理想、形象或者符号。但欲望始终在那里，就像一团熊熊燃烧的火焰。要探究、发现欲望的本质，欲望的复杂性，它的诸多活动、需求和满足——对权力、地位、名望、身份愈演愈烈的欲望，还有对那不可命名者、对超越我们日常生活的事物 ...

22 小时

深度解析AAAI 2025：武汉大学团队的SEAM框架揭示AI监管新思路

在即将举行的AAAI 2025学术会议上，武汉大学团队提出的新的SEAM框架（Strong Empowered and Aligned Weak Mastered Annotation for Weak-to-Strong ...

华网4 天

公司奖励畅游世界一圈

这项举措无疑体现了公司对员工的关怀与信任。我们深知，员工不仅是公司发展的基石，也是企业未来最宝贵的财富。通过这样的奖励计划，我们希望能够激发员工的潜能，让他们在工作中不断突破自我，同时也为他们提供一个释放压力、增进了解、提升自我的机会。

腾讯网6 天

阿里通义团队开源 R1-Omni：多模态模型 + RLVR

IT之家 3 月 11 日消息，随着 DeepSeek R1 的推出，强化学习在大模型领域的潜力被进一步挖掘。Reinforcement Learning with Verifiable ...

腾讯网4 天

超越DeepSeek-R1关键RL算法GRPO，CMU「元强化微调」新范式登场

机器之心报道编辑：杜伟、陈陈大语言模型（LLM）在推理领域的最新成果表明了通过扩展测试时计算来提高推理能力的潜力，比如 OpenAI 的 o1 系列。通常来说，这些方法在训练模型时可以产生比典型正确解决方案更长的轨迹，并包含了试图实现某些「算法」的 ...

3 天

MM-Eureka：极少数据实现多模态推理的R1-Zero时刻

开源框架：我们基于 OpenRLHF 开发了一个高效可扩展的多模态大规模强化学习框架，支持 InternVL 等多种模型和 RL 算法。相比 R1-V 等已有框架，我们的方案成功训练了 InternVL 2.5-38B 等大型模型。稳定训练： ...

6 天

阿里通义团队开源 R1-Omni：多模态模型 + RLVR，让各模态作用清晰可见

然而，现有研究多聚焦于 Image-Text 多模态任务，尚未涉足更复杂的全模态场景。基于此，通义实验室团队探索了 RLVR 与视频全模态模型的结合，于今日宣布开源 R1-Omni 模型。

腾讯网3 天

宇树和智元爆火背后：人类是如何给机器人注入灵魂的？

宇树机器人在春晚跳了一场秧歌之后，人们对人形机器人的关注度开始空前高涨。而就在前天（ 3 月 11 日），“ 华为天才少年 ” 稚晖君所创立的创业企业智元机器人发布了基于 GO-1 具身智能大模型的智元机器人灵犀 X2 。灵犀 X2 ...

什么值得买社区频道 on MSN4 天

小红书基于 PPO 的多模态大模型 RLHF 系统的设计与优化

随着大模型技术从技术变革转向产业变革，大模型应用也会进一步繁荣，传统基础设施技术已经不足以满足大模型应用的快速发展。整个基础设施技术和产业链正在快速转型，向大模型基础设施技术演变。2025 QCon 全球软件开发大会（北京站）策划了「面向 AI ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果