reinforcement learning

资讯

AI Agent 发展史：从 RL 驱动到大模型驱动｜AIR 2025

导语：从 Agent 前沿研究中一窥复制 Manus 的启示。 Manus 的出现将智能体推入当下 AI 格局的前列，使得这个过去略抽象的概念变得具体可感知。然而行业中也不乏对 Manus 的争议，认为 Manus 没有底层技术创新力，更多的是将现有技术融合从而在工程上创新，即所谓的“套壳”。虽说工程创新也是一种护城河，但“套壳”的说法也并非完全没道理。近几年的时间里，学界和业界关于 Agent ...

10 小时

推理性能再飞跃!DeepSeek推创新技术SPCT，让大模型更懂人心

备受瞩目的中国人工智能研究实验室DeepSeek AI，继其强大的开源语言模型DeepSeek-R1之后，再次在大型语言模型（LLM）领域取得重大突破。近日，DeepSeek AI正式推出一项名为自主演原则的批判调优(Self-Principled Critique Tuning，简称SPCT)的创新技术，旨在构建更通用、更具扩展性的AI奖励模型(Reward Models，简称RMs)。这项技术 ...

GitHub19 天

zaocan666/Maze-solver-using-reinforcement-learning

maze.py: 迷宫类的实现，迷宫信息用一个二维数组表示，数组中的每个数代表一个方格，数字值代表方格类型（如0表示墙, 2表示陷阱, 3表示火）。 train_qtable.py: Q表类的实现，Q表类有Q值的存储，决策的进行，Q表的学习等功能函数，进行预测和学习时会与迷宫 ...

2 天

强化学习十年发展：从学术探索到广泛应用

近年来，强化学习（Reinforcement Learning, RL）作为人工智能领域的重要分支，经历了飞速的发展。从最初的学术探索到如今的广泛应用，强化学习的演变不仅改变了人工智能的研究方向，也为多个行业带来了革命性的变化。在这篇文章中，我们将回顾强化学习过去十年的发展历程，探讨其未来可能的走向。强化学习的早期阶段强化学习的起源可以追溯到20世纪50年代，但真正引起学术界广泛关注是在近年来 ...

2 天on MSN

DeepSeek带火AI基础设施赛道，这家清华系公司想做“大模型时代的思科”

创业之初，胡效赫对公司的定位是做“大模型时代的思科”。思科曾在互联网产业崛起的过程中靠提供大量的网络交换机、路由器设备，参与构建了全球网络基础设施，基流科技则要在数据中心、国产通信网络系统、高性能计算集群等AI基础设施上发力。同时在此过程中，公司还计 ...

4 天

DeepSeek提出通用奖励模型新方法SPCT，探索推理时缩放提升AI对齐效率 ...

此前有消息称 DeepSeek 或将提前推出原定于在五月份初发布的 R2 模型。消息是否属实还有待考量，不过在此之前，DeepSeek 刚刚新发布的一项关于推理时缩放的新研究，或许能让我们窥到 R2 的一角。

8 天on MSN

2025年图灵奖：强化学习的前世今生

经济观察报陈永伟/文 3月5日，安德鲁·巴托（Andrew Barto）和理查德·萨顿（Richard Sutton）因在强化学习（Reinforcement ...

腾讯网1 天

漫画趣解：大模型预训练、后训练、微调

上个月，DeepSeek悄悄做了一次更新，发布了一个小版本：DeepSeek-V3-0324。这个版本大幅提高了在推理类任务上的表现水平，在数学、代码类相关评测集上取得了超过 GPT-4.5 ...

4 天

DeepSeek提出通用奖励模型新方法SPCT，或将应用于R2

腾讯网9 天

200美金，人人可手搓QwQ，清华、蚂蚁开源极速RL框架AReaL-boba

由于 DeepSeek R1 和 OpenAI o1 等推理模型（LRM，Large Reasoning Model）带来了新的 post-training scaling law，强化学习（RL，Reinforcement ...

亿欧 on MSN9 天

200美金，人人可手搓QwQ，清华、蚂蚁开源极速RL框架AReaL

本周，蚂蚁技术研究院和清华大学交叉信息院吴翼团队，联合发布了训练速度最快最稳定的开源强化学习训练框架 AReaL（Ant Reasoning RL），并公开全部数据和完成可复现的训练脚本。

电脑商情在线1 天

谷歌推出AI Mode，搜索引擎迎来全新体验

为阻止用户流失，谷歌一直计划将其AI技术整合到面向公众的谷歌搜索体验中。2024年5月，谷歌率先推出了AI概览（AI Overviews），据报道，该功能现已拥有超过10亿用户。最近，谷歌又在2025年3月推出了AI模式（AI ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果