aime - 搜索 News

SWI swissinfo.ch1 天

海地媒体再遭攻击纵火总理谴责行为卑劣

相关媒体记者告诉法新社说，海地最老牌「加勒比海广播电视台」（Radio-Television Caraibes，RTVC）和Melodie FM电台12日晚间也遭人纵火。海地新任总理费艾梅（Alix Didier ...

2 天

这次也售罄了！Aimé Leon Dore x New Balance 860V2

昨天晚上，ALD 官网上线了本季的服饰系列，同时这三款全新配色的 NB 860V2 也一同上架。结果今天早上再去看，已经全部售罄！这对组合的号召力，依旧无可撼动。

3 天

AI能出竞赛题了吗？港大&蚂蚁让大模型学会生成难题，水平已接近AIME

大模型的进化速度令人惊叹，但数据的不足却成了新的瓶颈。近日，港大与蚂蚁的研究团队提出了一种名为PromptCoT的方法，利用大模型的思维链能力，成功生成了接近AIME难度的数学题目。这一突破不仅为大模型训练提供了高质量的数据支持，也为AI在教育领域的 ...

红板报 on MSN4 天

AI能自主出“竞赛题”了！港大&蚂蚁让大模型学会生成难题，水平已 ...

赵学亮投稿量子位 | 公众号 QbitAI 大模型架构研究进展太快，数据却快要不够用了，其中问题数据又尤其缺乏。为此，港大和蚂蚁的研究人员反向利用思维链，提出了PromptCoT方法，并基于Llama3.1-8B训练了一个问题生成模型。实验结果表明，合成的问题难度较开源数据和已有算法有显著提升，接近了AIME水平。研究团队利用问题生成模型构造了400k SFT数据。基于这份数据，团队训练 ...

5 天

超越DeepSeek-R1关键RL算法GRPO，CMU「元强化微调」新范式登场

具体地，研究者利用一类新的微调方法来优化测试时计算，通过最小化累积悔值的概念产生了一种被称为元强化微调（Meta Reinforcement Fine-Tuning，MRT）的解决方案（或范式），从而为评估现有推理模型（如 ...

5 天on MSN

九章云极DataCanvas团队突破！R1推理模型复现及强化学习新成果发布

在人工智能领域，一项重大技术突破近日由九章云极DataCanvas公司携手中国人民大学STILL项目团队及北京智源研究院团队共同实现。他们在大模型慢思考推理技术上取得了显著进展，成功复现了类R1推理模型，并将其实现细节及训练技巧全面开源。这一成果不仅标志着技术的深度共享，更为AI推理技术的发展注入了新的活力。

5 天

九章云极联合团队大模型慢思考推理技术获系列成果预印版论文于 ...

近日,九章云极DataCanvas公司联合中国人民大学STILL项目团队、北京智源研究院团队联合在大模型慢思考推理技术上形成系列技术成果,初步复现类R1推理模型,完整开源了类R1类的实现细节以及训练技巧。进一步,创新性提出使用代码工具来增强模型推理性 ...

11 天on MSN

QwQ-32B强势登陆基石智算，320亿参数挑战AI极限，你准备好了吗？

近日，一款名为QwQ-32B的人工智能模型在业界引起了广泛关注。尽管该模型仅拥有320亿参数，但其性能却能与拥有6710亿参数的DeepSeek-R1相媲美，这一卓越表现让人眼前一亮。

IT之家22 天

OpenAI 员工公开指责 xAI：Grok 3 基准测试结果具有误导性

对此，xAI 的联合创始人伊戈尔・巴布什金（Igor Babushkin）则坚称公司并无不当。 xAI 在其博客上发布了一张图表，展示了 Grok 3 在 AIME 2025（一项近期邀请制数学考试中的高难度数学题集）上的表现。尽管一些专家质疑 AIME 作为 AI 基准的有效性，但 AIME 2025 及其 ...

腾讯网27 天

马斯克吹了半年的模型终于发布：Grok 3 你需要知道的所有信息

Grok3 包含两个模型版本 Grok3 和 Grok3-mini，Grok 3 AIME 和 GPQA 在内的基准测试中显著优于其他模型，如 Gemini 2 Pro 和 GPT-4o。即使是 Grok-3 mini 也表现不错。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果