bench - 搜索 News

资讯

1 小时

OpenAI震撼发布o3/o4-mini，直逼视觉推理巅峰，首用图像思考，十倍算力 ...

满血版o3和o4-mini深夜登场，首次将图像推理融入思维链，还会自主调用工具，60秒内破解复杂难题。尤其是，o3以十倍o1算力刷新编程、数学、视觉推理SOTA，接近「天才水平」。此外，OpenAI还开源了编程神器Codex CLI，一夜爆火。

腾讯网5 小时

OpenAI 启动 o3 和 o4-mini：能以图像思考并自主使用工具的 AI 模型

OpenAI 今日发布了两款突破性的 AI 模型，它们能够处理图像并独立使用工具，代表了专家所称的人工智能能力的质的飞跃。总部位于旧金山的公司推出了 o3 和 o4-mini —— “o ...

5 小时

好玩！复旦与阶跃星辰联合发布SVG矢量图生成大模型OmniSVG！挑战3万 ...

现有基于优化的方法通过优化可微分的矢量图形光栅化器，迭代地调整 SVG 参数。这些方法在生成 SVG 图标方面有效，但在处理复杂样本时计算开销较大，且生成的输出缺乏结构，存在冗余的锚点。

腾讯网6 小时

o3视觉推理，暴打了Gemini 2.5 Pro和Claude 3.7 Thinking

今天凌晨，OpenAI 发布了 o3 满血版和 o4‑mini。奥特曼亲自为新模型站台，称 o3 的智能达到和接近天才水平。而且还有人说，OpenAI 这次又重回王座。当然，从官方放出来的榜单结果看，在编码 SWE-Bench 和 ...

科技行者 on MSN6 小时

1比特革命：微软发布首个开源原生1比特大语言模型 BitNet b1.58 2B4T

微软研究院的研究团队近日发布了一项突破性成果——BitNet b1.58 ...

中文科技资讯8 小时

OpenAI模型o3被曝“作弊”倾向，METR测试揭示潜在风险

风险测试机构“机器智能测试风险” (METR)近日发布报告称，在与OpenAI合作测试其o3模型时发现，该模型在约1%至2%的任务中展现出“作弊”或“黑客行为”倾向。这些行为主要表现为对任务评分系统的精巧操控，以提升自身成绩。若不将此类尝试计为失败，o3的RE-Bench评分甚至可能超过人类专家。

10 小时

OpenAI o3模型被指存在作弊倾向：技术革新中的重大伦理考量

近期，风险测试领域的权威机构“机器智能测试风险”（METR）对OpenAI最新研发的o3模型进行了深入测试，并发布了一项引人注目的报告。这份报告揭示了o3模型在某些任务中的异常行为——似乎它试图通过操控评分系统 ...

10 小时

OpenAI o3模型被指操控评分系统引发热议：AI伦理问题何在？

近日，人工智能领域又一引人关注的事件浮出水面。风险测试机构“机器智能测试风险”（METR）与OpenAI合作，对其最新的o3模型进行严格测试后，发现该模型竟然展现出了一种异常的“作弊”倾向。据悉，o3模型在HCAST（人类校准自主软件任务）和RE-Bench两大测试套件中，约1%到2%的测试案例均表现出试图操控评分系统的行为。这一发现无疑在业界引发了广泛讨论，尤其是有关人工智能模型的道德和伦理问题 ...

封面新闻10 小时

首次实现“看图思考” OpenAI新模型o3和o4-mini或接近天才水平？｜科技 ...

2025年4月17日，OpenAI正式发布两款革命性AI推理模型——o3和o4-mini，标志着AI在多模态推理与自主任务执行能力上的跨越式突破。两款模型不仅首次实现“图像思维”，还能自主调用多种工具链，显著提升了复杂现实问题的解决效率。

十轮网科技资讯 on MSN11 小时

OpenAI发布o3、o4-mini 具图像思维、识自己拣工具、编程大幅跃进

OpenAI发布全新推理模型o3及o4-mini，首次实现图像推理及多任务具集成，数学及编程表现显著提升，引发全球科技界关注。此举标志AI技术向“代理型AI”迈进，具备自主决策及跨模态问题解决能力。OpenAI将以o3取代o1模型，o4-mini将会 ...

12 小时on MSN

METR 实测：OpenAI o3 AI 推理模型有“作弊”倾向以提升分数

IT之家 4 月 18 日消息，风险测试机构“机器智能测试风险”（METR）昨日（4 月 17 日）发布报告，与 OpenAI 合作测试其 o3 模型时发现，该模型展现出更强的“作弊”或“黑客行为”倾向，试图通过操控任务评分系统提升成绩。

13 小时

清华学霸、OpenAI姚顺雨：AI下半场开战，评估将比训练重要

早在 GPT-2 刚兴起时，他就预见了语言模型的潜力，率先研究如何将其转化为「会思考的 Agent」，展现了惊人的学术前瞻性。如今，他的成果正推动 AI 在编程、教育、自动化等领域大放异彩。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果