资讯

4月23日,快手Kwaipilot团队宣布发布全新大模型训练方法SRPO,并首次将其开源。这项技术以其创新的两阶段历史重采样策略优化(SRPO)引发了业界的广泛关注,仅需GRPO的十分之一训练成本,即在数学与代码双领域基准测试中,取得了显著的性能突破。 SRPO以Qwen2.5-32B为基础模型,通过纯强化学习训练,成功在AIME2024和LiveCodeBench两个重要测试中取得了令人瞩目的得 ...
4月23日,快手Kwaipilot团队发布全新大模型训练方法SRPO并宣布开源。该方法仅用 GRPO 1/10的训练成本,在数学与代码双领域基准测试中实现性能突破:AIME2024 得分50,LiveCodeBench 得分41.6,成为业界首个在两大专业领域同时复现DeepSeek-R1-Zero 的方法。
机器之心报道编辑:蛋酱、+0在大语言模型(LLMs)竞争日趋白热化的今天,「推理能力」已成为评判模型优劣的关键指标。OpenAI 的 o 系列、Anthropic 的 Claude 和 DeepSeek-R1 等模型的惊艳表现背后,测试时缩放(TTS ...
机器之心转载作者:孙浩RL + LLM 升级之路的四层阶梯。2025 年伊始,RL 以一种破局归来的姿态在 LLM 的后训练时代证明了其巨大价值,Sutton 和 Barto 拿了图灵奖,David Silver 去年在 RLC 上说 “(RL ...
研究团队由来自北京通用人工智能研究院(BIGAI)、清华大学和北京大学的跨专业研究者组成,致力于具身智能领域的前沿研究。团队成员在开发高效、智能的通用机器人技术,特别是机械灵巧手操作方面,拥有丰富的研究经验。一作为北京通用人工智能研究院研究员李恺林, ...
在药物发现中,化合物筛选需精准且高效。研究人员开展 “Molecular property prediction using pretrained - BERT and Bayesian active learning” 主题研究,发现结合预训练 BERT 和贝叶斯主动学习可提升模型性能与筛选效率,为药物设计提供新框架。
加州律师公会21日承认,今年2月的律师考试中部分题目是由人工智能(AI)协助出题,引发法学界强烈反弹。据《洛杉矶时报》报道,这个消息为已持续数周的考试问题抗议增添新的争议。 调查显示,在171道计分选择题中,23题由心理测验专家ACS ...
这主要是由于其行文风格与企业形象和营销出发点始终保持一致。在此次大战中,京东的温情人设为其赋予了“江湖正义”的光辉形象,也将商业竞争升华成了一场道义之战。因此,越是浓烈的情感越具有情绪煽动性,自然不显得违和。
Centuries later, China is once again shaping the future of printing. At the Drupa Exhibition 2024, the latest edition of the world's premier printing expo held every four years, over 400 Chinese firms ...
XINING, April 23 (Xinhua) -- Students in Atrang, a plateau town in northwest China's Qinghai Province, welcomed a long-awaited gift -- an "oxygenated library," on World Reading Day, which fell on ...
这为之前的经验性发现(即适度增加ε可提升Adam性能)提供了理论性解释:增大ε使得优化过程更加接近原始的动力学系统。该研究成果不仅深化了Adam与动力学系统的本质联系,同时也为分析其他主流自适应优化器(如AdaGrad、NAdam、AdamW等)提供 ...
We're replacing BBC Sounds outside the UK and bringing you BBC.com, a seamless way to read, watch, and listen - all in one ...