bbh - 搜索 News

23 小时

那么，BBEH 究竟有多难呢？当前能力最强的 o3-mini (high) 得分也仅有 44.8 分，不及格。而其它被测模型的得分均不超过 10 分！DeepSeek-R1 仅有 6.8，谷歌自家的 Gemini-2.0-Flash 也只有 ...

就在上周，阶跃星辰举办首届Step UP生态开放日，公布了其探索 AGI 的路径、模型最新进展以及未来大模型落地的重点方向。随后第二天，公司创始人、CEO姜大昕透露，公司将在三月份开源图生视频模型。

一些您可能无法访问的结果已被隐去。

今日热点