资讯
“婴儿被亲友轮番亲吻高烧近40摄氏度”“奶奶嚼碎花生喂2岁孩子致其患‘亲吻病’”……近年来,幼儿因被亲吻导致生病的报道频频刺痛公众的神经。这些由于亲吻而导致的疾病又叫“亲吻病”,其罪魁祸首正是EB病毒。这是一种怎样的病毒?感染后可能造成哪些健康损害?首都医科大学附属北京佑安医院呼吸与感染性疾病科主任医师 ...
2025年4月10日,服装、服饰与奢侈品公司拉夫劳伦(RL)成交额为3.70亿美元,在当日美股中排第323名,成交额较昨日减少10.90%,当日成交量为190.54万。 拉夫劳伦(RL)于2025年4月10日跌6.57%,报194.67美元,该股过去5个交易日跌1.63%,整个4月跌11.81%,年初至今跌15.72%,过去52周涨16.94%。 *如果公司上市时间少于52周,则52周涨跌幅为上市 ...
红板报 on MSN1 天
字节新推理模型逆袭DeepSeek,200B参数战胜671B,豆包史诗级加强?梦晨 发自 凹非寺量子位 | 公众号 QbitAI 字节最新深度思考模型,在数学、代码等多项推理任务中超过DeepSeek-R1了?而且参数规模更小。 同样是MoE架构,字节新模型Seed-Thinking-v1.5有200B总参数和20B激活参数。
众播星闻 on MSN1 天
我的后半生:观众最喜爱演员排名,张国立第5梅婷第2不是,这沈家男人离了爱情活不了了? 沈老爷子沈卓然发妻离世,他一副郁郁寡欢,想要追随而去的样子,结果住院月余就与护士长甜蜜恋爱。 因为房产纠纷两人痛苦分手之后,他也是难过不已,但这毫不影响他扭头对温柔知性的科学家动心。 这说爱就爱,说换就换的洒脱行为 ...
在科技飞速发展的今天,AI智能体的概念逐渐从模糊抽象变为现实中的重要角色。近年来的技术进步,尤其是Manus的出现,使得智能体的发展如火如荼。它不只是简单的技术汇聚,而是通过底层技术的融合与创新,孕育出了具有较强工程背景的智能决策系统。因此,很多行业专家开始对Manus抱以厚望,认为这是推动AI智能体发展的新动力,同时也引发了一些争议——是技术创新,还是仅仅是“套壳”工程? 在这一行业背景下,20 ...
导语:从 Agent 前沿研究中一窥复制 Manus 的启示。 Manus 的出现将智能体推入当下 AI 格局的前列,使得这个过去略抽象的概念变得具体可感知。然而行业中也不乏对 Manus 的争议,认为 Manus ...
在大模型越做越大的今天,另一个问题正悄然浮现:模型越大,推理成本越高,表现却未必更加稳定。尤其是在处理开放性、复杂性任务时,模型缺乏清晰判断标准,反馈机制过于单一,这个问题正成为AI发展的瓶颈。而最近,清华大学与DeepSeek联合提出了一种新的解决 ...
我们并未采用当前 VLM-RL 社区常用的 GRPO,而是选择探索 Reinforce++ 的替代可能性。整个项目的灵感来源于 OpenAI Spinning Up, 我们希望 MAYE 能成为 VLM-RL 研究中的一个轻量、透明、可教学的入门底座 ...
3 天
人人都是产品经理 on MSN强化学习RL-NPC复杂奖励机制的陷阱与需求简化策略在强化学习领域,奖励机制的设计对于模型性能至关重要。然而,复杂的奖励规则并不一定带来更好的效果。本文通过一个基于贪吃蛇的强化学习实验,揭示了复杂奖励机制可能导致的陷阱,如目标稀释效应、惩罚过载抑制探索和信号噪声干扰等问题。
DeepSeek和清华的研究者发现,在RM方法上采用点式生成式奖励建模(Pointwise Generative Reward Modeling, GRM),就能提升模型对不同输入类型的灵活适应能力,并具备推理阶段可扩展的潜力。
5 天
知乎专栏 on MSN强化学习也涌现?自监督RL扩展到1000层网络,机器人任务提升50倍机器之心报道。 虽然大多数强化学习(RL)方法都在使用浅层多层感知器(MLP),但普林斯顿大学和华沙理工的新研究表明,将对比 RL(CRL)扩展到 1000 层可以显著提高性能,在各种机器人任务中,性能可以提高最多 50 倍。 论文标题:1000 Layer Networks for Self-Supervised RL: Scaling Depth ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果