RL - 搜索 News

资讯

“婴儿被亲友轮番亲吻高烧近40摄氏度”“奶奶嚼碎花生喂2岁孩子致其患‘亲吻病’”……近年来，幼儿因被亲吻导致生病的报道频频刺痛公众的神经。这些由于亲吻而导致的疾病又叫“亲吻病”，其罪魁祸首正是EB病毒。这是一种怎样的病毒？感染后可能造成哪些健康损害？首都医科大学附属北京佑安医院呼吸与感染性疾病科主任医师 ...

1 天

拉夫劳伦4月10日成交额为3.70亿美元在当日美股中排第323名

2025年4月10日，服装、服饰与奢侈品公司拉夫劳伦（RL）成交额为3.70亿美元，在当日美股中排第323名，成交额较昨日减少10.90%，当日成交量为190.54万。拉夫劳伦（RL）于2025年4月10日跌6.57%，报194.67美元，该股过去5个交易日跌1.63%，整个4月跌11.81%，年初至今跌15.72%，过去52周涨16.94%。 *如果公司上市时间少于52周，则52周涨跌幅为上市 ...

红板报 on MSN1 天

字节新推理模型逆袭DeepSeek，200B参数战胜671B，豆包史诗级加强？

梦晨发自凹非寺量子位 | 公众号 QbitAI 字节最新深度思考模型，在数学、代码等多项推理任务中超过DeepSeek-R1了？而且参数规模更小。同样是MoE架构，字节新模型Seed-Thinking-v1.5有200B总参数和20B激活参数。

众播星闻 on MSN1 天

我的后半生：观众最喜爱演员排名，张国立第5梅婷第2

不是，这沈家男人离了爱情活不了了？沈老爷子沈卓然发妻离世，他一副郁郁寡欢，想要追随而去的样子，结果住院月余就与护士长甜蜜恋爱。因为房产纠纷两人痛苦分手之后，他也是难过不已，但这毫不影响他扭头对温柔知性的科学家动心。这说爱就爱，说换就换的洒脱行为 ...

2 天

AI智能体的快速演进：探索RL驱动至大模型驱动的未来

在科技飞速发展的今天，AI智能体的概念逐渐从模糊抽象变为现实中的重要角色。近年来的技术进步，尤其是Manus的出现，使得智能体的发展如火如荼。它不只是简单的技术汇聚，而是通过底层技术的融合与创新，孕育出了具有较强工程背景的智能决策系统。因此，很多行业专家开始对Manus抱以厚望，认为这是推动AI智能体发展的新动力，同时也引发了一些争议——是技术创新，还是仅仅是“套壳”工程？在这一行业背景下，20 ...

雷峰网2 天

AI Agent 发展史：从 RL 驱动到大模型驱动｜AIR 2025

导语：从 Agent 前沿研究中一窥复制 Manus 的启示。 Manus 的出现将智能体推入当下 AI 格局的前列，使得这个过去略抽象的概念变得具体可感知。然而行业中也不乏对 Manus 的争议，认为 Manus ...

腾讯网2 天

DeepSeek联手清华让AI“自我批评”：更大不如更聪明

在大模型越做越大的今天，另一个问题正悄然浮现：模型越大，推理成本越高，表现却未必更加稳定。尤其是在处理开放性、复杂性任务时，模型缺乏清晰判断标准，反馈机制过于单一，这个问题正成为AI发展的瓶颈。而最近，清华大学与DeepSeek联合提出了一种新的解决 ...

2 天

从零搭一套可复现、可教学的RL for VLM训练流程，我们试了试

我们并未采用当前 VLM-RL 社区常用的 GRPO，而是选择探索 Reinforce++ 的替代可能性。整个项目的灵感来源于 OpenAI Spinning Up，我们希望 MAYE 能成为 VLM-RL 研究中的一个轻量、透明、可教学的入门底座 ...

人人都是产品经理 on MSN3 天

强化学习RL-NPC复杂奖励机制的陷阱与需求简化策略

在强化学习领域，奖励机制的设计对于模型性能至关重要。然而，复杂的奖励规则并不一定带来更好的效果。本文通过一个基于贪吃蛇的强化学习实验，揭示了复杂奖励机制可能导致的陷阱，如目标稀释效应、惩罚过载抑制探索和信号噪声干扰等问题。

4 天

DeepSeek R2来了？全新推理时Scaling论文联手清华震撼发布

DeepSeek和清华的研究者发现，在RM方法上采用点式生成式奖励建模（Pointwise Generative Reward Modeling, GRM），就能提升模型对不同输入类型的灵活适应能力，并具备推理阶段可扩展的潜力。

知乎专栏 on MSN5 天

强化学习也涌现？自监督RL扩展到1000层网络，机器人任务提升50倍

机器之心报道。虽然大多数强化学习（RL）方法都在使用浅层多层感知器（MLP），但普林斯顿大学和华沙理工的新研究表明，将对比 RL（CRL）扩展到 1000 层可以显著提高性能，在各种机器人任务中，性能可以提高最多 50 倍。论文标题：1000 Layer Networks for Self-Supervised RL: Scaling Depth ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果