Learning - 搜索 News

资讯

20 分钟

快手团队仅需1/10训练成本复现DeepSeek-R1-Zero数学代码能力，SRPO方法 ...

4月23日，快手Kwaipilot团队宣布发布全新大模型训练方法SRPO，并首次将其开源。这项技术以其创新的两阶段历史重采样策略优化（SRPO）引发了业界的广泛关注，仅需GRPO的十分之一训练成本，即在数学与代码双领域基准测试中，取得了显著的性能突破。 SRPO以Qwen2.5-32B为基础模型，通过纯强化学习训练，成功在AIME2024和LiveCodeBench两个重要测试中取得了令人瞩目的得 ...

证券之星港股频道42 分钟

快手Kwaipilot团队全面复现DeepSeek-R1-Zero数学代码能力，训练步数仅需其1/10

4月23日，快手Kwaipilot团队发布全新大模型训练方法SRPO并宣布开源。该方法仅用 GRPO 1/10的训练成本，在数学与代码双领域基准测试中实现性能突破：AIME2024 得分50，LiveCodeBench 得分41.6，成为业界首个在两大专业领域同时复现DeepSeek-R1-Zero 的方法。

腾讯网1 小时

TTS和TTT已过时？TTRL横空出世，推理模型摆脱「标注数据」依赖，性能 ...

机器之心报道编辑：蛋酱、+0在大语言模型（LLMs）竞争日趋白热化的今天，「推理能力」已成为评判模型优劣的关键指标。OpenAI 的 o 系列、Anthropic 的 Claude 和 DeepSeek-R1 等模型的惊艳表现背后，测试时缩放（TTS ...

腾讯网1 小时

被《经验时代》刷屏之后，剑桥博士长文讲述RL破局之路

机器之心转载作者：孙浩RL + LLM 升级之路的四层阶梯。2025 年伊始，RL 以一种破局归来的姿态在 LLM 的后训练时代证明了其巨大价值，Sutton 和 Barto 拿了图灵奖，David Silver 去年在 RLC 上说 “（RL ...

腾讯网1 小时

机器人也会挤牙膏？ManipTrans：高效迁移人类双手操作技能至灵巧手

研究团队由来自北京通用人工智能研究院（BIGAI）、清华大学和北京大学的跨专业研究者组成，致力于具身智能领域的前沿研究。团队成员在开发高效、智能的通用机器人技术，特别是机械灵巧手操作方面，拥有丰富的研究经验。一作为北京通用人工智能研究院研究员李恺林， ...

生物通1 小时

BERT 与贝叶斯主动学习携手：药物设计数据高效新策略

在药物发现中，化合物筛选需精准且高效。研究人员开展 “Molecular property prediction using pretrained - BERT and Bayesian active learning” 主题研究，发现结合预训练 BERT 和贝叶斯主动学习可提升模型性能与筛选效率，为药物设计提供新框架。

十轮网科技资讯 on MSN1 小时

加州律师考试爆发AI出题争议，法学界质疑公信力

加州律师公会21日承认，今年2月的律师考试中部分题目是由人工智能（AI）协助出题，引发法学界强烈反弹。据《洛杉矶时报》报道，这个消息为已持续数周的考试问题抗议增添新的争议。调查显示，在171道计分选择题中，23题由心理测验专家ACS ...

2 小时

京东美团大战的营销学learning

这主要是由于其行文风格与企业形象和营销出发点始终保持一致。在此次大战中，京东的温情人设为其赋予了“江湖正义”的光辉形象，也将商业竞争升华成了一场道义之战。因此，越是浓烈的情感越具有情绪煽动性，自然不显得违和。

China.org.cn3 小时

Feature: A dialogue in printing bridges past, future between China, Germany

Centuries later, China is once again shaping the future of printing. At the Drupa Exhibition 2024, the latest edition of the world's premier printing expo held every four years, over 400 Chinese firms ...

China Economic Net3 小时

"Oxygenated library" ignites reading dreams for plateau students

XINING, April 23 (Xinhua) -- Students in Atrang, a plateau town in northwest China's Qinghai Province, welcomed a long-awaited gift -- an "oxygenated library," on World Reading Day, which fell on ...

4 小时

Adam获时间检验奖！清华揭示保辛动力学本质，提出全新RAD优化器

这为之前的经验性发现（即适度增加ε可提升Adam性能）提供了理论性解释：增大ε使得优化过程更加接近原始的动力学系统。该研究成果不仅深化了Adam与动力学系统的本质联系，同时也为分析其他主流自适应优化器（如AdaGrad、NAdam、AdamW等）提供 ...

12 小时

BBC Learning English - BBC Q&A of the Week “你问我答”：乘坐公共交通时常用 ...

We're replacing BBC Sounds outside the UK and bringing you BBC.com, a seamless way to read, watch, and listen - all in one ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果