SWE - 搜索 News

1 天

谷歌发布BIG-Bench超难基准：DeepSeek-R1得分6.8，只有o3-mini超过10分

那么，BBEH 究竟有多难呢？当前能力最强的 o3-mini (high) 得分也仅有 44.8 分，不及格。而其它被测模型的得分均不超过 10 分！DeepSeek-R1 仅有 6.8，谷歌自家的 Gemini-2.0-Flash 也只有 ...

1 天

OpenAI最大最贵模型，来了！定价比DeepSeek贵1000倍

OpenAI将GPT-4.5称作其最大最好的聊天模型，其早期测试结果表明，GPT-4.5与人类的交互更加自然，知识库更广泛，具有高情商能了解用户的暗示等，使得其在写作、设计、编程等方面能力更加强大。

5 天

OpenAI最新研究：AI程序员仍难敌人类工程师

近日，OpenAI发布的一项最新研究表明，尽管AI技术飞速发展，当前最先进的AI模型在编程任务中仍无法与人类程序员相媲美。这一发现引发了关于AI替代人类工作的广泛讨论。

9 天

OpenAI掀「百万美金」编程大战，Claude 3.5 Sonnet狂赚40万拿下第一

OpenAI刚刚发布SWE-Lancer编码基准测试，直接让AI模型挑战真实外包任务！这些任务总价值高达100万美元。有趣的是，测试结果显示，Anthropic的Claude 3.5 ...

虎嗅网9 天

Intel股价单日暴涨16% 10天累涨40%创半年来新高；OpenAI 推出大模型测试 ...

2月19日消息，美东时间2月18日收盘，Intel股价大涨16.06%，创2024年8月1日以来收盘新高。美国副总统万斯表示，美国政府将保障最强大的AI芯片在美国设计与生产，吸引投资者购买Intel股票。Intel是美国唯一能生产高端AI芯片的企业， ...

9 天

OpenAI最新基准测试:AI编程能力达人类四分之一，显现局限性

OpenAI近日发布了一项重要的AI编程能力评估报告，通过价值100万美元的实际开发项目揭示了AI在软件开发领域的现状。这项名为SWE-Lancer的基准测试涵盖了1，400个来自Upwork的真实项目，全面评估AI在直接开发和项目管理两大领域的表现。

凤凰网10 天

openai推出大模型测试基准swe

品玩2月19日讯，OpenAI 官方宣布，推出一款全新的大模型测试基准SWE-Lancer，主要用于评测大模型的编程能力。

品玩10 天

OpenAI 推出大模型测试基准 SWE-Lancer

品玩2月19日讯，OpenAI 官方宣布，推出一款全新的大模型测试基准SWE-Lancer，主要用于评测大模型的编程能力。据悉，该评测基准提供了1400多项软件工程任务，包括独立工程任务和管理任务。独立任务由经验丰富的软件工程师通过三重验证的端到端测试进行评分 ...

腾讯网10 天

全球首测！OpenAI开源SWELancer，大模型冲击100万年薪

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！今天凌晨2点，OpenAI开源了一个全新评估大模型代码能力的测试基准——SWE-La ...

腾讯网15 天

U20美洲杯：阿根廷、巴西等5队获得世青赛资格；末轮决出冠军

北京时间2月14日，U20美洲杯第四轮比赛全部结束，阿根廷、巴西等5队获得世青赛资格；末轮决出冠军。U20美洲杯赛制为每个小组5队单循环（共两个小组），两个小组积分前三晋级决赛轮，决赛进行5场单循环以积分决出冠军。目前，巴西与阿根廷分别积10分，巴西 ...

IT之家21 天

微软官宣 All in 智能体、Copilot SWE Agent 首曝光，阿尔特曼预警 2025 ...

开年智能体大爆发，AI 自动化软件工程已成为不争的事实。就在今天，纳德拉官宣，GitHub Copilot 将 all-in 智能体，微软自主的 SWE 智能体首次亮相。 GitHub 现任 CEO Thomas Dohmke 表示，自主 SWE 智能体（项目代号 Padawan）也将融入 GitHub 用户体验，不过要等到今年晚些 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果