O1 - 搜索 News

DeepSeek-R1、o1都在及格线挣扎！字节开源全新知识推理测评集，覆盖285 ...

允中发自凹非寺量子位 | 公众号 QbitAI大模型刷榜 MMLU、屠榜 GPQA ...

1 天

总结而言，类O1大模型的技术路线正在逐步完善，推动着AI领域不断向前迈进。这一系列的创新实践，展示了如何有效突破传统强化学习的限制，探索出更高效的推理能力提升方法。在未来的研究中，期待更多的学者和研究团队参与到这一激动人心的探索中，共同推动AI技术的 ...

15 天

AI无法攻克的235道谜题！让o1、Gemini 2.0 Flash Thinking集体挂零

在 ENIGMAEVAL 基准上，研究者对现有多模态和推理基准上表现优异的前沿语言模型进行了评估。结果显示，包括 OpenAI o1 在内等 SOTA 模型在普通谜题（Normal）上的准确率最高仅为 7.0% 左右，在困难谜题（Hard）上的准确率则降至 0%，远远不及经验丰富的人类解谜者。

腾讯网10 天

AI也“耍赖”？DeepSeek R1和o1-preview被曝在棋局中输急眼就作弊！

编译 | 郑丽媛出品 | CSDN（ID：CSDNnews）AI 大模型的能力，这几年来我们已经有目共睹——然而当 AI 面临失败时，它会怎么做呢？根据 Palisade Research 的最新研究显示，OpenAI 的 o1-preview 和 ...

13 天

Claude挣钱强于o1！OpenAI开源百万美元编码基准，检验大模型钞能力

OpenAI 的评估结果显示，包括自家 GPT-4o、o1 和 Anthropic Claude 3.5 Sonnet 在内的前沿模型仍然无法解决大多数任务。从下图中可以看到，Claude 3.5 Sonnet 完成的任务最多，并且挣到了最高的 ...

19 天

OpenAI与中国AI公司DeepSeek合作揭示o1的秘密，推理模型再次引领竞技 ...

2025年2月12日，OpenAI在其最新的研究论文中公布了一系列令人瞩目的成果，涉及在全球知名的竞技编程平台——IOI（国际信息学奥林匹克竞赛）和CodeForces上表现卓越的推理模型。这篇论文题为《Competitive Programming with Large Reasoning ...

1 天on MSN

科大讯飞星火 X1 升级，数学能力对标 DeepSeek R1 和 OpenAI o1

IT之家 3 月 3 日消息，科大讯飞今日宣布星火 X1 升级，并发布星火一体机等系列新品。其中，深度推理大模型星火 X1 再升级，数学能力全面对标 DeepSeek R1 和 OpenAI o1。

来自MSN9 天

OpenAI 推出全新 AI 模型 o1 系列，引领复杂推理新时代

2024 年 9 月 13 日，北京时间午夜，OpenAI 正式发布了一系列全新的大型语言模型（LLM），旨在专门解决复杂的推理问题。这些模型在科学、技术、工程和数学（STEM）领域表现卓越，标志着人工智能能力的重大飞跃。 OpenAI o1 ...

1 天

科大讯飞星火 X1 模型升级，数学能力全面对标 DeepSeek R1 和 OpenAI o1

科大讯飞表示，此次升级在数学答题效果上全面提升，尤其是应对竞赛级难题表现显著。同时，星火 X1 在中小学数学作业的批改、辅导以及题目推荐等任务上也展现出了明显的优势。测试集合来源：中文测试集来自 2023/2024 年各学段考试真题 / 模拟题 / ...

新浪网14 天

超过o1-mini、逼近o3-mini，DeepSeek-R1在新的贪吃蛇基准上拿下1801分

那么，DeepSeek-R1 的 ARC-AGI 成绩如何呢？根据 ARC Prize 发布的报告，R1 在 ARC-AGI-1 上的表现还赶不上 OpenAI 的 o1 系列模型，更别说 o3 系列了。但 DeepSeek-R1 也有自己的特有优势：成本低。上周六，ARC Prize 又发布了一个新的基准，这一次 DeepSeek-R1 不仅超过了 o1-mini ...

生物谷28 天

ChatGPT o1 所使用的“思维链”推理技术使得回答更加结构化和可靠，降低了出错的风险。DeepSeek-R1 虽然回答正确率稍低，但因其开源的特性以及新兴 ...

知乎 on MSN16 天

DeepSeek缝合Claude，比单用R1/o1效果都好！GitHub揽星3k

梦晨西风发自凹非寺量子位 | 公众号 QbitAI让DeepSeek代替Claude思考，缝合怪玩法火了。原因无它：比单独使用DeepSeek R1、Claude Sonnet 3.5、OpenAI o1模型的效果更好。先来看一段VCR：再来看一个测评结果：在代码编辑基准Polyglot Benchmark上，缝合模型效果小超o1-high和R1一头。在这个测试中，R1扮演架构师，描述如何解 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果