8 小时
知乎专栏 on MSN强化学习也涌现?自监督RL扩展到1000层网络,机器人任务提升50倍机器之心报道。 虽然大多数强化学习(RL)方法都在使用浅层多层感知器(MLP),但普林斯顿大学和华沙理工的新研究表明,将对比 RL(CRL)扩展到 1000 层可以显著提高性能,在各种机器人任务中,性能可以提高最多 50 倍。 论文标题:1000 Layer Networks for Self-Supervised RL: Scaling Depth ...
近年来,强化学习(Reinforcement Learning, RL)作为人工智能领域的重要分支,经历了飞速的发展。从最初的学术探索到如今的广泛应用,强化学习的演变不仅改变了人工智能的研究方向,也为多个行业带来了革命性的变化。在这篇文章中,我们将回顾强化学习过去十年的发展历程,探讨其未来可能的走向。 强化学习的早期阶段 强化学习的起源可以追溯到20世纪50年代,但真正引起学术界广泛关注是在近年来 ...
作者|王兆洋邮箱|[email protected] 来了。4月5日,Meta发布了外界期待许久的Llama4系列开源模型,目前它包括Llama 4 Scout、Llama 4 Maverick和Llama 4 ...
1 天
知乎 on MSN在实际工程系统中,MPC太复杂,难以做到realtime。因此都利用数据 ...怕一些没碰过实际工程系统的朋友们误解,做一点信息上的补充。“MPC难以做到Realtime”这句话是错的,并不是因为前沿的MPC实现已经到处跑了,而是最学生、最实验室的方法都能做到实时:simulink中的时变线性含约束MPC,用PLC Coder生成的ST语言代码,200个步长的horizon,放到x86 based ...
这篇论文的名字叫做 Inference-Time Scaling for Generalist Reward Modeling ,由DeepSeek和清华大学共同提出。 它采用点式生成奖励模型(Pointwise ...
DeepSeek和清华的研究者发现,在RM方法上采用点式生成式奖励建模(Pointwise Generative Reward Modeling, GRM),就能提升模型对不同输入类型的灵活适应能力,并具备推理阶段可扩展的潜力。
2025年4月4日,服装、服饰与奢侈品公司拉夫劳伦(RL)成交额为5.99亿美元,在当日美股中排第294名,成交额较昨日减少9.89%,当日成交量为306.08万。
智元首席科学家罗剑岚认为,国内具身智能领域更注重产业落地与商业化,强调用实际问题驱动科研。作为伯克利博士及前谷歌研究员,他主张强化学习(RL)路线,认为国内硬件与场景优势填补了基础研究与产业间的鸿沟,而美国则因资本充裕更倾向长期基础研究,导致落地滞后 ...
机器之心报道机器之心编辑部一种全新的学习方法。这会是 DeepSeek R2 的雏形吗?本周五,DeepSeek 提交到 arXiv 上的最新论文正在 AI 社区逐渐升温。当前,强化学习(RL)已广泛应用于大语言模型(LLM)的后期训练。最近 RL ...
癌症治疗领域正面临一个严峻挑战:尽管靶向治疗和免疫疗法取得突破,但实体瘤通过复杂的进化机制产生耐药性,导致约90%化疗失败和50%靶向治疗失效。这种"进化逃逸"现象涉及表观遗传改变、肿瘤微环境重塑、药物外排泵过表达等多层次机制,传统单靶点研究范式已难以应对。在此背景下,Hao Zhang与Wendy Mao领衔的研究团队在《Journal of Translational ...
为解决机械取栓(MT)中现有强化学习(RL)方法无法到达脑血管、缺乏通用性和安全性等问题,研究人员开展了基于安全双器械 RL 算法的脑血管导航研究。结果显示该算法成功率达 96%,平均力 0.24N。这为 MT 的自动化提供了新方向。
Grok做了解答,顺便diss了一把波士顿动力:擎天柱注重实用、可规划应用于工业场景,其目标是以每台约3万美元的价格部署在工厂中、完成精密任务,计划到2025年生产超过1000台。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果