近年来,随着深度强化学习(Deep Reinforcement Learning, DRL)技术的快速发展,尤其是在复杂决策和推理任务中的应用,建筑设计领域也迎来了激动人心的变革。复旦大学和同济大学的研究团队联合提出了一种基于深度强化学习的社区布局生成方法,为建筑师们在繁琐复杂的设计任务中带来了新的思路和工具。
在过去这一年间,RL从一度沉沦的位置,重新走回了AI研究的闪光灯中心。2024年下半年,OpenAI率先发布了它在LLM基础上,用RL实现“深度思考”的成果——o1,设定了新的终点线。今年初,DeepSeek将赛道上的迷雾更进一步迅速驱散了,把自己的 ...
诡变与欺诈强化学习:这些博弈环境通常是“不完全信息”的。智能体不一定知道其他对手的完整信息,而是依赖推理和假设对手的行为。诡变和欺诈强化学习尤其注重在不完全信息的情况下如何通过欺骗和误导使对方做出有利于自己的决策。例如,智能体可能会隐藏其真实意图,通 ...
刚刚,计算机学会(ACM)宣布了 2024 年的「图灵奖」获得者:- Andrew G. Barto (马萨诸塞大学阿默斯特分校荣誉退休教授,Sutton 的博士导师)- Richard S. Sutton ...
然而,现有研究多聚焦于 Image-Text 多模态任务,尚未涉足更复杂的全模态场景。基于此,通义实验室团队探索了 RLVR 与视频全模态模型的结合,于今日宣布开源 R1-Omni 模型 。
Reinforcement Learning with Verifiable Reward(RLVR)方法的出现,为多模态任务提供了全新的优化思路,无论是几何推理、视觉计数,还是经典图像分类和物体 ...
这篇论文是DeepSeek-AI团队发表的,标题是《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。 它主要讲了如何通过强化学习 ...
当前正在显示可能无法访问的结果。
隐藏无法访问的结果