bench - 搜索 News

资讯

微软研究院（微软的研发部门）的一项新研究表明，包括 Anthropic 的 Claude 3.7 Sonnet 和 OpenAI 的 o3-mini 在内的多款模型，在一个名为 SWE-bench Lite 的软件开发基准测试中，无法成功调试许多问题 ...

腾讯网1 天

芯报丨国巨重申收购芝浦电子意愿

聚焦:人工智能、芯片等行业欢迎各位客官关注、转发每日芯报0412期国巨重申收购芝浦电子意愿针对被动元件大厂国巨计划收购芝浦电子被竞购一事。国巨4月10日发布新闻稿指出，重申收购意愿，并表示支持芝浦电子在全球推广强大技术和产品的愿景不变。国巨发布新闻稿 ...

2 天

斯坦福大学发布2025年人工智能指数报告：AI变革的深远影响与未来展望

2025年4月，斯坦福大学以人为本人工智能研究所（Stanford HAI）发布了《2025年人工智能指数报告》，这份长达456页的文档引发了广泛讨论。报告由著名研究者李飞飞联合领导，聚焦于2024年全球人工智能（AI）行业的发展现状和未来趋势。这份报告不仅介绍了AI在各个领域的应用进展，还揭示了AI技术在硬件、投资以及伦理层面的最新动态，成为业界关注的焦点。

2 天

提升大模型自动修Bug能力豆包正式开源首个多语言类SWE数据集

快科技4月10日消息，今日，字节跳动豆包大模型团队宣布，正式开源首个多语言类SWE数据集——Multi-SWE-bench，可用于评估和提升大模型“自动修 Bug”能力。

腾讯网3 天

每经记者：杨煜每经编辑：马子卿

字节跳动豆包大模型团队宣布正式开源首个多语言类SWE数据集——Multi-SWE-bench，可用于评估和提升大模型“自动修Bug”能力。在SWE-bench基础上，Multi-SWE-bench首次覆盖Python之外的7种主流编程语言。其数据均来 ...

每日经济新闻 on MSN3 天

编辑: 马子卿记者: 杨煜的报道

丨2025年4月11日星期五丨 NO.1 豆包大模型团队开源多语言类SWE数据集 ...

3 天on MSN

豆包大模型开源Multi-SWE-bench，多语言“自动修Bug”能力能否更上一层 ...

字节跳动旗下的豆包大模型团队近日传来重要消息，他们正式推出了首个多语言软件错误修正（SWE）数据集——Multi-SWE-bench。这一创新工具旨在评估和提升大型语言模型在自动修复代码错误方面的能力。

3 天Opinion

大模型“自动修bug”能力将提升，豆包团队开源首个多语言代码修复 ...

IT之家 4月10日消息，豆包大模型团队今日通过官方公众号宣布，首个多语言类 SWE 数据集Multi-SWE-bench现已正式开源，可用于评估和提升大模型“自动修Bug”能力。

3 天

字节跳动开源Multi-SWE-bench，助力大模型自动修Bug能力提升

近日，字节跳动的豆包大模型团队正式发布了Multi-SWE-bench，这是首个多语言的软件工程（SWE）数据集，旨在评估并提升大模型的“自动修Bug”能力。这份数据集将成为科技界全新的评测标准，是面向“全栈工程”的重要指标，让我们一探究竟。

腾讯网3 天

大模型“自动修bug”能力将提升，豆包开源多语言代码修复基准

IT之家 4 月 10 日消息，豆包大模型团队今日通过官方公众号宣布，首个多语言类 SWE 数据集 Multi-SWE-bench 现已正式开源，可用于评估和提升大模型“自动修 Bug”能力。在 SWE-bench ...

品玩 on MSN4 天

字节跳动开源Multi-SWE-bench，推动大模型代码智能升级

品玩4月10日讯，据 AIBASE 报道，字节跳动豆包大模型团队宣布开源Multi-SWE-bench，这是业内首个多语言代码修复基准数据集，为大模型“自动修Bug”能力的评估与提升带来新突破。

36氪28 天

人类秒懂，AI却懵圈：VLM²-Bench揭示视觉语言模型「视觉关联」能力短板

基于此，该团队推出 VLM²-Bench 来系统探究模型在 “人类级基础视觉线索关联能力” 上的表现。本文将如下的两点作为本工作的出发点：什么能力 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果