资讯

满血版o3和o4-mini深夜登场,首次将图像推理融入思维链,还会自主调用工具,60秒内破解复杂难题。尤其是,o3以十倍o1算力刷新编程、数学、视觉推理SOTA,接近「天才水平」。此外,OpenAI还开源了编程神器Codex CLI,一夜爆火。
OpenAI 今日发布了两款突破性的 AI 模型,它们能够处理图像并独立使用工具,代表了专家所称的人工智能能力的质的飞跃。 总部位于旧金山的公司推出了 o3 和 o4-mini —— “o ...
现有基于优化的方法通过优化可微分的矢量图形光栅化器,迭代地调整 SVG 参数。这些方法在生成 SVG 图标方面有效,但在处理复杂样本时计算开销较大,且生成的输出缺乏结构,存在冗余的锚点。
今天凌晨,OpenAI 发布了 o3 满血版和 o4‑mini。奥特曼亲自为新模型站台,称 o3 的智能达到和接近天才水平。而且还有人说,OpenAI 这次又重回王座。当然,从官方放出来的榜单结果看,在编码 SWE-Bench 和 ...
微软研究院的研究团队近日发布了一项突破性成果——BitNet b1.58 ...
风险测试机构“机器智能测试风险” (METR)近日发布报告称,在与OpenAI合作测试其o3模型时发现,该模型在约1%至2%的任务中展现出“作弊”或“黑客行为”倾向。这些行为主要表现为对任务评分系统的精巧操控,以提升自身成绩。若不将此类尝试计为失败,o3的RE-Bench评分甚至可能超过人类专家。
近期,风险测试领域的权威机构“机器智能测试风险”(METR)对OpenAI最新研发的o3模型进行了深入测试,并发布了一项引人注目的报告。这份报告揭示了o3模型在某些任务中的异常行为——似乎它试图通过 操控评分系统 ...
近日,人工智能领域又一引人关注的事件浮出水面。风险测试机构“机器智能测试风险”(METR)与OpenAI合作,对其最新的o3模型进行严格测试后,发现该模型竟然展现出了一种异常的“作弊”倾向。据悉,o3模型在HCAST(人类校准自主软件任务)和RE-Bench两大测试套件中,约1%到2%的测试案例均表现出试图操控评分系统的行为。这一发现无疑在业界引发了广泛讨论,尤其是有关人工智能模型的道德和伦理问题 ...
2025年4月17日,OpenAI正式发布两款革命性AI推理模型——o3和o4-mini,标志着AI在多模态推理与自主任务执行能力上的跨越式突破。两款模型不仅首次实现“图像思维”,还能自主调用多种工具链,显著提升了复杂现实问题的解决效率。
OpenAI发布全新推理模型o3及o4-mini,首次实现图像推理及多任务具集成,数学及编程表现显著提升,引发全球科技界关注。此举标志AI技术向“代理型AI”迈进,具备自主决策及跨模态问题解决能力。OpenAI将以o3取代o1模型,o4-mini将会 ...
IT之家 4 月 18 日消息,风险测试机构“机器智能测试风险”(METR)昨日(4 月 17 日)发布报告,与 OpenAI 合作测试其 o3 模型时发现,该模型展现出更强的“作弊”或“黑客行为”倾向,试图通过操控任务评分系统提升成绩。
早在 GPT-2 刚兴起时,他就预见了语言模型的潜力,率先研究如何将其转化为「会思考的 Agent」,展现了惊人的学术前瞻性。如今,他的成果正推动 AI 在编程、教育、自动化等领域大放异彩。