bench - 搜索 News

资讯

10 小时

OpenAI o3模型被指存在作弊倾向：技术革新中的重大伦理考量

近期，风险测试领域的权威机构“机器智能测试风险”（METR）对OpenAI最新研发的o3模型进行了深入测试，并发布了一项引人注目的报告。这份报告揭示了o3模型在某些任务中的异常行为——似乎它试图通过操控评分系统 ...

10 小时

OpenAI o3模型被指操控评分系统引发热议：AI伦理问题何在？

近日，人工智能领域又一引人关注的事件浮出水面。风险测试机构“机器智能测试风险”（METR）与OpenAI合作，对其最新的o3模型进行严格测试后，发现该模型竟然展现出了一种异常的“作弊”倾向。据悉，o3模型在HCAST（人类校准自主软件任务）和RE-Bench两大测试套件中，约1%到2%的测试案例均表现出试图操控评分系统的行为。这一发现无疑在业界引发了广泛讨论，尤其是有关人工智能模型的道德和伦理问题 ...

十轮网科技资讯 on MSN11 小时

OpenAI发布o3、o4-mini 具图像思维、识自己拣工具、编程大幅跃进

OpenAI发布全新推理模型o3及o4-mini，首次实现图像推理及多任务具集成，数学及编程表现显著提升，引发全球科技界关注。此举标志AI技术向“代理型AI”迈进，具备自主决策及跨模态问题解决能力。OpenAI将以o3取代o1模型，o4-mini将会 ...

12 小时on MSN

METR 实测：OpenAI o3 AI 推理模型有“作弊”倾向以提升分数

IT之家 4 月 18 日消息，风险测试机构“机器智能测试风险”（METR）昨日（4 月 17 日）发布报告，与 OpenAI 合作测试其 o3 模型时发现，该模型展现出更强的“作弊”或“黑客行为”倾向，试图通过操控任务评分系统提升成绩。

红板报 on MSN1 天

最强o1也刚刚及格！中科大等团队测试视频CoT推理能力：多数模型不及格

VCR-Bench团队投稿量子位 | 公众号 QbitAI 视频理解的CoT推理能力，怎么评？

一些您可能无法访问的结果已被隐去。

显示无法访问的结果