bench - 搜索 News

资讯

微软研究院（微软的研发部门）的一项新研究表明，包括 Anthropic 的 Claude 3.7 Sonnet 和 OpenAI 的 o3-mini 在内的多款模型，在一个名为 SWE-bench Lite 的软件开发基准测试中，无法成功调试许多问题 ...

一些您可能无法访问的结果已被隐去。