Swe - 搜索 News

1 天

谷歌发布BIG-Bench超难基准：DeepSeek-R1得分6.8，只有o3-mini超过10分

那么，BBEH 究竟有多难呢？当前能力最强的 o3-mini (high) 得分也仅有 44.8 分，不及格。而其它被测模型的得分均不超过 10 分！DeepSeek-R1 仅有 6.8，谷歌自家的 Gemini-2.0-Flash 也只有 ...

3 天

OpenAI研究揭示：AI在编程领域仍难以超越人类工程师

研究人员开发了一个全新的基准测试SWE-Lancer，基于自由职业网站Upwork上的1,400道软件工程问题，旨在评估大模型在处理未见过的编程任务时的表现。测试对象包括OpenAI的o1推理模型和GPT-4、以及Anthropic的Claude3.

5 天

OpenAI最新研究：AI程序员仍难敌人类工程师

近日，OpenAI发布的一项最新研究表明，尽管AI技术飞速发展，当前最先进的AI模型在编程任务中仍无法与人类程序员相媲美。这一发现引发了关于AI替代人类工作的广泛讨论。

8 天

OpenAI百万美元豪测：顶级大模型取代不了程序员

最新权威测试显示，当今顶级大模型甚至无法取代初级软件工程师，科技企业大裁员，AI不背这个锅当Sam ...

8 天

OpenAI掀「百万美金」编程大战，Claude 3.5 Sonnet狂赚40万拿下第一

OpenAI刚刚发布SWE-Lancer编码基准测试，直接让AI模型挑战真实外包任务！这些任务总价值高达100万美元。有趣的是，测试结果显示，Anthropic的Claude 3.5 ...

虎嗅网9 天

Intel股价单日暴涨16% 10天累涨40%创半年来新高；OpenAI 推出大模型测试 ...

2月19日消息，美东时间2月18日收盘，Intel股价大涨16.06%，创2024年8月1日以来收盘新高。美国副总统万斯表示，美国政府将保障最强大的AI芯片在美国设计与生产，吸引投资者购买Intel股票。Intel是美国唯一能生产高端AI芯片的企业， ...

9 天

OpenAI最新基准测试:AI编程能力达人类四分之一，显现局限性

OpenAI近日发布了一项重要的AI编程能力评估报告，通过价值100万美元的实际开发项目揭示了AI在软件开发领域的现状。这项名为SWE-Lancer的基准测试涵盖了1，400个来自Upwork的真实项目，全面评估AI在直接开发和项目管理两大领域的表现。

凤凰网9 天

openai推出大模型测试基准swe

品玩2月19日讯，OpenAI 官方宣布，推出一款全新的大模型测试基准SWE-Lancer，主要用于评测大模型的编程能力。

10 天

Claude挣钱强于o1!OpenAI开源百万美元编码基准,检验大模型钞能力

OpenAI 的评估结果显示，包括自家 GPT-4o、o1 和 Anthropic Claude 3.5 Sonnet 在内的前沿模型仍然无法解决大多数任务。从下图中可以看到，Claude 3.5 Sonnet 完成的任务最多，并且挣到了最高的 ...

品玩10 天

OpenAI 推出大模型测试基准 SWE-Lancer

品玩2月19日讯，OpenAI 官方宣布，推出一款全新的大模型测试基准SWE-Lancer，主要用于评测大模型的编程能力。据悉，该评测基准提供了1400多项软件工程任务，包括独立工程任务和管理任务。独立任务由经验丰富的软件工程师通过三重验证的端到端测试进行评分 ...

腾讯网10 天

全球首测！OpenAI开源SWELancer，大模型冲击100万年薪

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！今天凌晨2点，OpenAI开源了一个全新评估大模型代码能力的测试基准——SWE-La ...

凤凰网14 天

恐袭事件频发我使馆提醒中国公民近期暂勿前往阿富汗

【恐袭事件频发我使馆提醒中国公民近期暂勿前往阿富汗】财联社2月13日电，中国驻阿富汗使馆当地时间13日再次发布安全提示，提醒中国公民近期暂勿前往阿富汗。使馆表示，近期，阿富汗发生多起恐袭事件，造成重大人员伤亡。中国驻阿富汗使馆再次提醒中国公民暂勿前往阿富汗。如坚持前往，可能导致当事人面临极高安全风险，并影响获得领事协助的实效。已在当地的中国公民和在阿机构应保持高度警惕，牢固树立“公民是自身海 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果