reinforcement learning

资讯

类R1强化学习迁移到视觉定位！全开源Vision-R1将图文大模型性能提升50％

图文大模型通常采用「预训练 + ...

AI Agent 发展史：从 RL 驱动到大模型驱动｜AIR 2025

导语：从 Agent 前沿研究中一窥复制 Manus 的启示。 Manus 的出现将智能体推入当下 AI 格局的前列，使得这个过去略抽象的概念变得具体可感知。然而行业中也不乏对 Manus 的争议，认为 Manus 没有底层技术创新力，更多的是将现有技术融合从而在工程上创新，即所谓的“套壳”。虽说工程创新也是一种护城河，但“套壳”的说法也并非完全没道理。近几年的时间里，学界和业界关于 Agent ...

10 小时

推理性能再飞跃!DeepSeek推创新技术SPCT，让大模型更懂人心

备受瞩目的中国人工智能研究实验室DeepSeek AI，继其强大的开源语言模型DeepSeek-R1之后，再次在大型语言模型（LLM）领域取得重大突破。近日，DeepSeek AI正式推出一项名为自主演原则的批判调优(Self-Principled Critique Tuning，简称SPCT)的创新技术，旨在构建更通用、更具扩展性的AI奖励模型(Reward Models，简称RMs)。这项技术 ...

2 天

强化学习十年发展：从学术探索到广泛应用

近年来，强化学习（Reinforcement Learning, RL）作为人工智能领域的重要分支，经历了飞速的发展。从最初的学术探索到如今的广泛应用，强化学习的演变不仅改变了人工智能的研究方向，也为多个行业带来了革命性的变化。在这篇文章中，我们将回顾强化学习过去十年的发展历程，探讨其未来可能的走向。强化学习的早期阶段强化学习的起源可以追溯到20世纪50年代，但真正引起学术界广泛关注是在近年来 ...

2 天on MSN

DeepSeek带火AI基础设施赛道，这家清华系公司想做“大模型时代的思科”

创业之初，胡效赫对公司的定位是做“大模型时代的思科”。思科曾在互联网产业崛起的过程中靠提供大量的网络交换机、路由器设备，参与构建了全球网络基础设施，基流科技则要在数据中心、国产通信网络系统、高性能计算集群等AI基础设施上发力。同时在此过程中，公司还计 ...

4 天

DeepSeek提出通用奖励模型新方法SPCT，探索推理时缩放提升AI对齐效率 ...

此前有消息称 DeepSeek 或将提前推出原定于在五月份初发布的 R2 模型。消息是否属实还有待考量，不过在此之前，DeepSeek 刚刚新发布的一项关于推理时缩放的新研究，或许能让我们窥到 R2 的一角。

腾讯网1 天

漫画趣解：大模型预训练、后训练、微调

上个月，DeepSeek悄悄做了一次更新，发布了一个小版本：DeepSeek-V3-0324。这个版本大幅提高了在推理类任务上的表现水平，在数学、代码类相关评测集上取得了超过 GPT-4.5 ...

4 天

DeepSeek提出通用奖励模型新方法SPCT，或将应用于R2

18 小时

2025年图灵奖：强化学习的前世今生

2025年1月，DeepSeek发布了 R1版本。这款模型一经面世，便凭借与国际顶尖大模型比肩的能力赢得了全球用户的青睐。更令业界震惊的是，它的训练与运行成本远低于同类模型，性价比之高被许多观察者称为“不可思议”。

电脑商情在线1 天

谷歌推出AI Mode，搜索引擎迎来全新体验

为阻止用户流失，谷歌一直计划将其AI技术整合到面向公众的谷歌搜索体验中。2024年5月，谷歌率先推出了AI概览（AI Overviews），据报道，该功能现已拥有超过10亿用户。最近，谷歌又在2025年3月推出了AI模式（AI ...

腾讯网3 天

【AI100问(87)】机器如何学会打游戏?

从塞缪尔的西洋棋开始，游戏就是机器学习里的研究热点，不仅是因为游戏的对战性可以直接体现出机器的智能，而且打游戏的技巧确实是可以学出来的，很适合用机器学习方法来解决。然而，在2016年以前，可能没有人会想到机器玩起游戏来竟如此强大，不仅可以在简单游戏中 ...

腾讯网2 天

魏炜：从算力堆砌到认知革命——大模型如何开启理论创造的第四次 ...

我们推断第四次Scaling Law来源于大模型“理论构建”的训练范式。这种范式跃迁的本质，在于将大模型从被动吸收知识的“认知海绵”转化为主动生成理论的“思维引擎”。通过“现象采样—理论建模—模拟验证”的闭环迭代，AI系统得以突破训练数据的时空局限，在虚拟实验室中构建自洽的理论框架。正如伽利略用望远镜拓展人类观测边界，第四次Scaling ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果