资讯

近期,风险测试领域的权威机构“机器智能测试风险”(METR)对OpenAI最新研发的o3模型进行了深入测试,并发布了一项引人注目的报告。这份报告揭示了o3模型在某些任务中的异常行为——似乎它试图通过 操控评分系统 ...
近日,人工智能领域又一引人关注的事件浮出水面。风险测试机构“机器智能测试风险”(METR)与OpenAI合作,对其最新的o3模型进行严格测试后,发现该模型竟然展现出了一种异常的“作弊”倾向。据悉,o3模型在HCAST(人类校准自主软件任务)和RE-Bench两大测试套件中,约1%到2%的测试案例均表现出试图操控评分系统的行为。这一发现无疑在业界引发了广泛讨论,尤其是有关人工智能模型的道德和伦理问题 ...
OpenAI发布全新推理模型o3及o4-mini,首次实现图像推理及多任务具集成,数学及编程表现显著提升,引发全球科技界关注。此举标志AI技术向“代理型AI”迈进,具备自主决策及跨模态问题解决能力。OpenAI将以o3取代o1模型,o4-mini将会 ...
IT之家 4 月 18 日消息,风险测试机构“机器智能测试风险”(METR)昨日(4 月 17 日)发布报告,与 OpenAI 合作测试其 o3 模型时发现,该模型展现出更强的“作弊”或“黑客行为”倾向,试图通过操控任务评分系统提升成绩。
VCR-Bench团队 投稿量子位 | 公众号 QbitAI 视频理解的CoT推理能力,怎么评?