资讯
10 小时
至顶头条 on MSNAI 推理模型的兴起使基准测试成本大幅提升AI实验室如 OpenAI声称他们所谓的"推理型" AI 模型能够一步步"思考"解决问题,在物理等特定领域比非推理模型更强大。但虽然这种说法普遍看来是正确的,推理模型的基准测试成本却要高得多,这使得独立验证这些声明变得困难。
IT之家从中国信通院官方获悉,中国信通院人工智能研究所于 2023 年开始布局大模型基准测试研究,并于 2023 年底发布“方升”大模型基准测试体系,推出自适应动态测试方法,积累 600 万条数据集,构建 FactTeting 测试工具,支撑整个大模型测试过程的自动化实施。
在人工智能快速发展的背景下,如何评估和比较世界生成模型成为了研究者们关注的焦点。近日,李飞飞教授与吴佳俊团队公布了一项重磅研究成果——WorldScore,这是一个全面评测世界生成能力的新基准,旨在解决当前3D、4D、视频模型评测中存在的分散和不统一的问题。
6 天on MSN
特朗普政府一项关税新规于周六正式生效,即日起输入美国的外国商品需缴交10%的基准关税。据白宫公告,更高税率的“对等关税”预计在下周三午夜后实施。不过,原油、药品和半导体等则被豁免。
4月11日,生意社鸡蛋基准价为6.85元/公斤,与本月初(6.68元/公斤)相比,上涨了2.54%。 交易商可以根据约定升贴水及定价公式(交易价格=生意社价格+升贴水)的定价原理,实现现货交易和合约交易的定价。
近日,上海人工智能实验室提出了首个面向开放式图文交错生成任务的综合评测基准 OpenING,相关论文成果已被 CVPR2025 接收为 Oral。该基准包含:1)多样化的真实图文生成任务与高质量的标注数据;2)通过增强训练得到的可靠裁判模型 ...
国际电信联盟电信标准分局(ITU-T)于2025年3月正式发布ITU-T F.748.44基础模型的评估标准:基准测试/Assessment criteria for foundation models:Benchmark。该项国际标准由中国信息通信研究院牵头制定,规范了大模型基准测试的指标要求和测试方法。该标准旨在推动大模型基准测试体系架构形成国际共识,为大模型技术提供方和应用方提供高质量的能力 ...
Investing.com — 周三,基准分析师维持了对国家影院媒体(National CineMedia,NASDAQ:NCMI)的买入评级和8.00美元的目标价,理由是当前季度的电影阵容和公司广告技术的进步有望带来收益。根据InvestingPro数据,该公司保持强劲的流动性,流动比率为2.42,而分析师的目标价在7至8美元之间,表明相对于当前水平有上涨潜力。基准分析师强调,国家影院媒体在20 ...
IT之家 4 月 10 日消息,豆包大模型团队今日通过官方公众号宣布,首个多语言类 SWE 数据集 Multi-SWE-bench 现已正式开源,可用于评估和提升大模型“自动修 Bug”能力。
在科技界的又一重大进展中,OpenAI于今日凌晨正式推出了BrowseComp,一个专为智能体浏览器功能设计的挑战性测试基准。据悉,该基准测试难度极高,即便是OpenAI自家的GPT-4o与GPT-4.5,在这项测试中的表现也不尽如人意,准确率分别仅为0.6%与0.9%,几乎可以忽略不计。即便是加入了浏览器功能的GPT-4o,其准确率也仅仅提升至1.9%。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果