资讯
备受瞩目的中国人工智能研究实验室DeepSeek AI,继其强大的开源语言模型DeepSeek-R1之后,再次在大型语言模型(LLM)领域取得重大突破。近日,DeepSeek AI正式推出一项名为自主演原则的批判调优 (Self-Principled Critique Tuning,简称SPCT)的创新技术,旨在构建更通用、更具扩展性的AI奖励模型 (Reward ...
DeepSeek和清华的研究者发现,在RM方法上采用点式生成式奖励建模(Pointwise Generative Reward Modeling, GRM),就能提升模型对不同输入类型的灵活适应能力,并具备推理阶段可扩展的潜力。
在Reward Bench、PPE、RMB等基准上,DeepSeek-GRM-27B显著优于基线方法(如LLM-as-a-Judge、标量RM),且通过推理时扩展(32次采样)性能进一步提升(如Reward Bench准确率从86.0%提升至90.4 ...
近日,DeepSeek与清华大学联合发布了一篇名为《Inference-Time Scaling for Generalist Reward Modeling》的重要论文,预计将对大语言模型的发展产生深远影响。论文中提出了一种全新的奖励模型优化方法——SPCT(Self-Principled Critique Tuning),旨在解决当前奖励模型在多样化任务下的表现不足。
这篇论文的名字叫做 Inference-Time Scaling for Generalist Reward Modeling ,由DeepSeek和清华大学共同提出。 它采用点式生成奖励模型(Pointwise ...
其核心在于训练一个奖励模型(Reward Model, RM)来模拟人类偏好,并指导 LLM 优化。但传统 RLHF 依赖大量人类标注,成本高昂且扩展性受限,尤其难以处理复杂和主观性强的任务。因此,构建更强大、更通用的奖励模型成为突破瓶颈的关键。
此前有消息称 DeepSeek 或将提前推出原定于在五月份初发布的 R2 模型。消息是否属实还有待考量,不过在此之前,DeepSeek 刚刚新发布的一项关于推理时缩放的新研究,或许能让我们窥到 R2 的一角。 当前主流的 AI 模型大多采用了强化学习(Reinforcement Learning,RL),尤其是基于人类反馈的强化学习(Reinforcement Learning from Huma ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果