bench - 搜索 News

本文来自港科与 MIT 教授团队。本文有两个共同一作：张鉴殊为武汉大学本科四年级，本篇为其在港科大访问期间完成，将于 2025 秋季前往美国西北大学攻读 CS PhD。姚栋宇目前就读于 CMU CS 系下的 MSCV ...

14 天

谷歌发布BIG-Bench超难基准：DeepSeek-R1得分6.8，只有o3-mini超过10分

那么，BBEH 究竟有多难呢？当前能力最强的 o3-mini (high) 得分也仅有 44.8 分，不及格。而其它被测模型的得分均不超过 10 分！DeepSeek-R1 仅有 6.8，谷歌自家的 Gemini-2.0-Flash 也只有 ...

腾讯网9 天

智谱发布首个支持生成汉字的开源文生图模型CogView4，达到SOTA

「智谱2025开源年」的第一个模型。本文为IPO早知道原创作者｜Stone Jin 据IPO早知道消息，智谱于3月4日发布了「智谱2025开源年」的第一个模型：首个支持生成汉字的开源文生图模型——CogView4，其在 ...

12 天

谷歌发布高难度基准：BIG-Bench

Extra Hard，简称 BBEH。从名字也能看出来，这个基准非常难—Extra Hard论文标题：BIG-Bench Extra Hard 论文地址：数据地址： ...

来自MSN5 个月

OpenAI 推出MLE-bench 新基准

品玩10月12日讯，据 The Decoder 报道， OpenAI 公司推出 MLE-bench 新基准，旨在评估 AI 智能体在开发机器学习解决方案方面的能力。该基准包括 75 个 Kaggle ...

10 天

智谱发布首个支持生成汉字的开源文生图模型CogView4

3月4日，智谱发布“2025开源年”的首个模型——CogView4，这是首个支持生成汉字的开源文生图模型。据介绍，该模型在DPG-Bench基准测试中的综合评分排名第一，在开源文生图模型中达到SOTA，也是首个遵循Apache 2.0协议的图像生成模型。智谱表示，最新的CogView4-0304版本现已开源，并将于3月13日上线智谱清言。

当前正在显示可能无法访问的结果。

隐藏无法访问的结果