O1 - 搜索 News

1 天

总结而言，类O1大模型的技术路线正在逐步完善，推动着AI领域不断向前迈进。这一系列的创新实践，展示了如何有效突破传统强化学习的限制，探索出更高效的推理能力提升方法。在未来的研究中，期待更多的学者和研究团队参与到这一激动人心的探索中，共同推动AI技术的 ...

腾讯网6 小时

DeepSeek-R1、o1都在及格线挣扎！字节开源全新知识推理测评集，覆盖285 ...

允中发自凹非寺量子位 | 公众号 QbitAI大模型刷榜 MMLU、屠榜 GPQA ...

1 天

科大讯飞星火 X1 模型升级，数学能力全面对标 DeepSeek R1 和 OpenAI o1

科大讯飞表示，此次升级在数学答题效果上全面提升，尤其是应对竞赛级难题表现显著。同时，星火 X1 在中小学数学作业的批改、辅导以及题目推荐等任务上也展现出了明显的优势。测试集合来源：中文测试集来自 2023/2024 年各学段考试真题 / 模拟题 / ...

来自MSN10 天

OpenAI 推出全新 AI 模型 o1 系列，引领复杂推理新时代

2024 年 9 月 13 日，北京时间午夜，OpenAI 正式发布了一系列全新的大型语言模型（LLM），旨在专门解决复杂的推理问题。这些模型在科学、技术、工程和数学（STEM）领域表现卓越，标志着人工智能能力的重大飞跃。 OpenAI o1 ...

腾讯网11 天

AI也“耍赖”？DeepSeek R1和o1-preview被曝在棋局中输急眼就作弊！

编译 | 郑丽媛出品 | CSDN（ID：CSDNnews）AI 大模型的能力，这几年来我们已经有目共睹——然而当 AI 面临失败时，它会怎么做呢？根据 Palisade Research 的最新研究显示，OpenAI 的 o1-preview 和 ...

5 天on MSN

Kimi 最新模型 k1.6 曝光，编程能力超越 GPT o3mini、o1

IT之家 2 月 27 日消息，Kimi 最新模型 k1.6 今日曝光。据全球动态基准测试平台 LiveCodeBench， Kimi k1.6 超过 GPT o3mini、o1 等模型，在代码生成测试中实现登顶。

3 小时

消息称亚马逊正开发推理模型 Nova：又要快又要能深度思考

推理模型近年来已成为人工智能领域的下一个突破。这类模型虽然运算较慢，但能通过多次尝试和链式思维回溯解决更为复杂的问题。谷歌、OpenAI 和 Anthropic 等公司近期纷纷推出了自己的推理模型，而 DeepSeek ...

13 天

Claude挣钱强于o1！OpenAI开源百万美元编码基准，检验大模型钞能力

OpenAI 的评估结果显示，包括自家 GPT-4o、o1 和 Anthropic Claude 3.5 Sonnet 在内的前沿模型仍然无法解决大多数任务。从下图中可以看到，Claude 3.5 Sonnet 完成的任务最多，并且挣到了最高的 ...

15 天

AI无法攻克的235道谜题！让o1、Gemini 2.0 Flash Thinking集体挂零

在 ENIGMAEVAL 基准上，研究者对现有多模态和推理基准上表现优异的前沿语言模型进行了评估。结果显示，包括 OpenAI o1 在内等 SOTA 模型在普通谜题（Normal）上的准确率最高仅为 7.0% 左右，在困难谜题（Hard）上的准确率则降至 0%，远远不及经验丰富的人类解谜者。

GitHub2 天

ChatGPT 中文版：国内免费使用指南及镜像网站推荐（支持 GPT-4o 和 o1 ...

免费试用：提供初始免费额度，方便用户体验各项功能。推荐的 ChatGPT 中文版镜像网站 chat.yixiaai.com：这是一个稳定运营近两年的ChatGPT中文版平台，支持 GPT-4、4o 和 o1 模型，有 AI绘画功能。chat.lify.vip：该ChatGPT镜像网站集成了最新的 ChatGPT模型，包括 GPT-4o、4o ...

GitHub13 小时

Cailailai/chatgpt-chinese-zh

本指南提供 ChatGPT 中文版使用指南，汇总国内可用的 ChatGPT镜像网站和官网使用教程帮助您快速上手 ChatGPT，无论是个人使用还是专业需求，均可无限使用 ChatGPT-4、4o 和 o1！为什么选择 ChatGPT 中文版？ ChatGPT 中文版是 OpenAI开发的 ChatGPT模型的中文优化版本 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果