资讯

LUFFY 的名字来源于“离策略(off-policy)指导下学习推理”。它所倡导的“边学边练”范式,指的是模型能够一边向更强的老师学习,一边立即把学到的本领用于问题求解。在 LUFFY 的训练框架中(如图 4 ...
这个TTRL是个啥?简单说,它能让机器在做题时,一边做一边学,不用老师给答案,也能越做越聪明。比如,有个数学考试,机器本来只能答对一两道题,用了TTRL后,成绩蹭蹭往上涨,最高能多对159%的题!这就像一个学生,没人教,自己看书做题,成绩还能甩开全班。 事情是这样的。过去,机器学习靠人喂答案,费时费力。后来,有人想出个办法,叫测试时缩放,简称TTS。TTS让机器多试几次,挑出最好的答案,就像考试时 ...
测试时缩放(TTS,Test-Time Scaling)是一种提升大语言模型推理能力的新兴策略,通过在测试阶段优化推理过程(如多数投票、蒙特卡洛树搜索等)提升大型语言模型(LLMs)的性能,而无需修改模型参数。
克雷西 发自 凹非寺量子位 | 公众号 QbitAI 无需数据标注,在测试时做强化学习,模型数学能力暴增159%! 清华和上海AI Lab周伯文团队用这样的方法,对模型进行了强化—— ...
【新智元导读】一项来自清华大学和上海交通大学的研究颠覆了对可验证奖励强化学习(RLVR)的认知。RLVR被认为是打造自我进化大模型的关键,但实验表明,它可能只是提高了采样效率,而非真正赋予模型全新推理能力。 最近,以推理能力为核心的大语言模型已然成为了主流,比如OpenAI o系列模型、DeepSeek-R1等等。 推理模型在处理数学和编程等复杂逻辑问题方面取得了显著突破。 相比于之前依赖人工标注 ...
【新智元导读】LLM的规模爆炸式增长,传统量化技术虽能压缩模型,却以牺牲精度为代价。莱斯大学团队的最新研究DFloat11打破这一僵局:它将模型压缩30%且输出与原始模型逐位一致!更惊艳的是,通过针对GPU的定制化解压缩内核,DFloat11使推理吞 ...
近日,由上海人工智能实验室的李亚福和西湖大学的严建昊(两位为共同第一作者)领衔的研究团队发表了一篇题为《Learning to Reason under Off-Policy ...
伴随着合作网络的快速扩张,创新医疗对全诊AI医疗大模型的营收增长寄予厚望。公司明确提出,力争在2025年实现该模型收入达到4000万元。这一目标相较于2024年的440万元,意味着接近10倍的惊人增长,凸显了公司对该AI产品商业化前景的强大信心。
(芝加哥時報訊)2025年春季,备受期待的芝加哥围棋公开赛将于5月25日(星期六)至26日(星期日)在伊利诺伊州Evanston盛大举行。本次赛事由Evanston围棋俱乐部与 Go and Math Academy(弈数教育)联合主办,吸引来自美国中西部乃至全美各州的围棋爱好者参与,已逐步发展成为美国最大规模的周末围棋赛事之一。
现在有多少人在工作和生活中已经习惯了“DeepSeek”一下,或者是使用已经接入DeepSeek的其他大模型平台。2025年横空出世的DeepSeek不仅震惊了国内,还让英伟达的市值一天蒸发了6000亿美元。DeepSeek是怎么横空出世的?又是怎么 ...
《Bowmen》是由Ethereal Gem, LLC制作发行的一款角色扮演游戏。在我们的在线排行榜上竞争高分。一张地图,一个游戏模式,无限的荣耀。 《红绿驴》是一款单人俯视角射击游戏。