bench - 搜索 News

28 分钟

当前，视觉语言模型（VLMs）的能力边界不断被突破，但大多数评测基准仍聚焦于复杂知识推理或专业场景。本文提出全新视角：如果一项能力对人类而言是 “无需思考” 的本能，但对 AI 却是巨大挑战，它是否才是 VLMs 亟待突破的核心瓶颈？

16 天

谷歌发布BIG-Bench超难基准：DeepSeek-R1得分6.8，只有o3-mini超过10分

那么，BBEH 究竟有多难呢？当前能力最强的 o3-mini (high) 得分也仅有 44.8 分，不及格。而其它被测模型的得分均不超过 10 分！DeepSeek-R1 仅有 6.8，谷歌自家的 Gemini-2.0-Flash 也只有 9.8。遗憾的是，该团队并没有给出近期发布的 Grok-3 与 Claude 3.7 Sonnet 的表现。

腾讯网11 天

智谱发布首个支持生成汉字的开源文生图模型CogView4，达到SOTA

「智谱2025开源年」的第一个模型。本文为IPO早知道原创作者｜Stone Jin 据IPO早知道消息，智谱于3月4日发布了「智谱2025开源年」的第一个模型：首个支持生成汉字的开源文生图模型——CogView4，其在 ...

12 天

智谱开源年第一弹：发布首个能生成汉字的开源文生图模型CogView4

大模型独角兽智谱发布2025开源年的第一个模型：首个支持生成汉字的开源文生图模型——CogView4。据悉，该模型在 DPG-Bench基准测试中的综合评分排名第一，在开源文生图模型中达到 SOTA（最先进的）。该模型也是首个遵循 Apache 2.0协议的图像生成模型。（科创板日报李明明） ...

14 天

谷歌发布高难度基准：BIG-Bench

Extra Hard，简称 BBEH。从名字也能看出来，这个基准非常难—Extra Hard论文标题：BIG-Bench Extra Hard 论文地址：数据地址： ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果