Swe - 搜索 News

1 天

那么，BBEH 究竟有多难呢？当前能力最强的 o3-mini (high) 得分也仅有 44.8 分，不及格。而其它被测模型的得分均不超过 10 分！DeepSeek-R1 仅有 6.8，谷歌自家的 Gemini-2.0-Flash 也只有 ...

1 天

OpenAI将GPT-4.5称作其最大最好的聊天模型，其早期测试结果表明，GPT-4.5与人类的交互更加自然，知识库更广泛，具有高情商能了解用户的暗示等，使得其在写作、设计、编程等方面能力更加强大。

3 天

研究人员开发了一个全新的基准测试SWE-Lancer，基于自由职业网站Upwork上的1,400道软件工程问题，旨在评估大模型在处理未见过的编程任务时的表现。测试对象包括OpenAI的o1推理模型和GPT-4、以及Anthropic的Claude3.

5 天

近日，OpenAI发布的一项最新研究表明，尽管AI技术飞速发展，当前最先进的AI模型在编程任务中仍无法与人类程序员相媲美。这一发现引发了关于AI替代人类工作的广泛讨论。

一些您可能无法访问的结果已被隐去。