文章

OpenAI o3 在 ARC-AGI-Pub 上取得突破性高分 [译]

OpenAI o3 在 ARC-AGI-Pub 上取得突破性高分 [译]

OpenAI 的新系统 o3 —— 在 ARC-AGI-1 公共训练集上训练 —— 在我们的公开排行榜上,在 $10k 计算限制下,对半私有评估集取得了突破性的 75.7% 高分。高计算量(172 倍)o3 配置的得分为 87.5%

o 系列性能

这是 AI 能力的一个令人惊讶且重要的阶跃式提升,展示了 GPT 系列模型前所未见的新颖任务适应能力。作为背景,ARC-AGI-1 从 2020 年 GPT-3 的 0% 提升到 2024 年 GPT-4o 的 5%,用了四年时间。所有关于 AI 能力的直觉都需要为 o3 进行更新。

ARC 奖项的使命不仅限于我们的第一个基准测试:它旨在成为通向 AGI 的北极星。我们很高兴明年能与 OpenAI 团队及其他团队合作,继续设计下一代持久的 AGI 基准测试。

ARC-AGI-2(同样的格式 —— 经验证对人类容易,对 AI 更难)将与 ARC 奖项 2025 同时发布。我们承诺将继续举办大奖赛,直到创造出得分达到 85% 的高效、开源解决方案。

继续阅读以获取完整的测试报告。


OpenAI o3 ARC-AGI 结果

我们在两个 ARC-AGI 数据集上测试了 o3:

  • 半私有评估:用于评估过拟合的 100 个私有任务
  • 公开评估:400 个公开任务

在 OpenAI 的指导下,我们在两个计算水平下进行测试,样本大小可变:6(高效)和 1024(低效,计算量为 172 倍)。

以下是结果。

集合 任务 效率 得分 零售成本 样本 令牌数 每任务成本 每任务时间(分钟)
半私有 100 高效 75.7% $2,012 6 33M $20 1.3
半私有 100 低效 87.5% - 1024 5.7B - 13.8
公开 400 高效 82.8% $6,677 6 111M $17 N/A
公开 400 低效 91.5% - 1024 9.5B - N/A

注意:o3 高计算量的成本尚未提供,因为定价和功能可用性仍待确定。计算量大约是低计算量配置的 172 倍。

关于“调优”:OpenAI 分享了他们在公共训练集的 75% 上训练了我们测试的 o3。他们尚未分享更多细节。我们尚未测试 ARC 未训练的模型,以了解性能提升有多少归功于 ARC-AGI 数据。

由于推理预算可变,效率(例如,计算成本)现在成为报告性能时的必要指标。我们记录了总成本和每任务成本,作为效率的初步代理。作为一个行业,我们需要找出什么指标最能跟踪效率,但方向上,成本是一个良好的起点。

高效模式下 75.7% 的得分符合 ARC-AGI-Pub 的预算规则(成本 <$10k),因此在公开排行榜上获得了第一名!

低效模式下 87.5% 的得分虽然成本较高,但仍表明随着计算量的增加(至少到此水平),新颖任务的性能确实有所提升。

尽管每任务成本显著,但这些数字不仅仅是对基准测试应用蛮力计算的结果。OpenAI 的新 o3 模型代表了 AI 在适应新颖任务能力上的重大飞跃。这不仅是渐进式的改进,而是真正的突破,与之前的大型语言模型(LLM)的局限性相比,标志着 AI 能力的质变。o3 是一个能够适应它从未遇到过的任务的系统,在 ARC-AGI 领域中可以说接近人类水平的表现。

当然,这种通用性付出了高昂的代价,目前还不太经济:你可以花大约每任务 $5 的费用雇佣一个人类解决 ARC-AGI 任务(我们知道,我们做过),而消耗的能源仅需几美分。与此同时,o3 在低计算模式下每任务需要 $17-20。但成本效益可能会在接下来的几个月和几年内显著改善,因此你应该计划在相当短的时间内这些能力将与人类工作具有竞争力。

o3 相较于 GPT 系列的提升证明了架构的重要性。你无法通过增加 GPT-4 的计算量来获得这些结果。仅仅将我们从 2019 年到 2023 年所做的事情扩大规模 —— 使用相同的架构,在更多数据上训练一个更大的版本 —— 并不足够。进一步的进展需要新的创意。


那么它是 AGI 吗?

ARC-AGI 作为一个关键基准,用于检测此类突破,强调了泛化能力,以一种饱和或要求较低的基准无法做到的方式。然而,重要的是要注意,ARC-AGI 不是 AGI 的严格测试 —— 正如我们今年反复强调的。它是一个研究工具,旨在将注意力集中在 AI 最具挑战性的未解决问题上,过去五年里它很好地履行了这一角色。

通过 ARC-AGI 并不等同于实现 AGI,事实上,我认为 o3 还不是 AGI。o3 仍然在一些非常简单的任务上失败,表明其与人类智能存在根本差异。

此外,早期数据显示,即将推出的 ARC-AGI-2 基准测试仍将对 o3 构成重大挑战,即使在高计算量下,其得分可能会降至 30% 以下(而一个聪明的人类在无需训练的情况下仍能超过 95%)。这表明,创建具有挑战性、未饱和的基准测试仍然是可能的,而无需依赖专家领域知识。当创建对普通人类来说简单但对 AI 来说困难的任务变得不可能时,你将知道 AGI 已经到来。

o3 与旧模型相比有何不同?

为什么 o3 的得分比 o1 高得这么多?而 o1 又为什么最初会比 GPT-4o 得分高呢?我认为这一系列的结果为持续追求通用人工智能(AGI)提供了宝贵的数据点。

我对大型语言模型(LLM)的思维模型是,它们充当了一个向量程序的存储库。当接收到提示时,模型会从存储的程序中找到与提示对应的程序,并在当前输入上「执行」它。LLM 通过被动接触人类生成的内容,存储并操作数百万个有用的微型程序。

这种「记忆、获取、应用」的范式可以在给定适当训练数据的情况下,在各种任务中达到任意水平的技能,但它无法适应新颖的任务,也无法在瞬间学会新技能(即缺乏流动智力)。这一点在 LLM 在 ARC-AGI 基准测试中的表现中得到了体现——该测试专门衡量对新颖任务的适应能力。GPT-3 得分为 0,GPT-4 得分接近 0,而 GPT-4o 的得分也只有 5%。即便是将这些模型扩展到极限,ARC-AGI 的得分依然远低于几年前基础暴力枚举所能达到的水平(最高可达 50%)。

要适应新颖任务,需要具备两点。首先,你需要知识——一组可以重用的函数或程序。LLM 在这方面完全具备。其次,你需要能在面对新任务时,将这些函数重新组合成一个全新的程序——一个能够模拟当前任务的程序,这就是「程序合成」。然而,LLM 长期缺乏这种能力,而 o 系列模型解决了这个问题。

目前,我们只能推测 o3 的具体工作原理。o3 的核心机制似乎是自然语言程序搜索与执行,并在 token 空间中进行操作——在测试时,模型会在可能的「思维链」(CoT) 空间中搜索,寻找解决当前任务所需的步骤,这一过程或许与 AlphaZero 风格的蒙特卡罗树搜索(Monte Carlo Tree Search)相似。在 o3 的情况下,这一搜索过程可能由某种评估模型引导。值得注意的是,DeepMind 的 Demis Hassabis 曾在 2023 年 6 月的访谈中提到,DeepMind 已经在研究这一理念——这一方向的研究早已有迹可循。

因此,尽管单次生成的 LLM 在面对新颖任务时表现不佳,o3 通过生成并执行自己的程序来克服这一问题,其中的程序(即思维链 CoT)成为知识重组的产物。虽然这不是唯一可行的测试时知识重组方式(比如可以通过测试时训练,或在潜在空间中进行搜索),但根据新的 ARC-AGI 结果来看,它代表了当前的最先进水平。

从本质上讲,o3 代表了一种深度学习引导的程序搜索。模型在「程序」空间(这里指的是自然语言程序——描述解决任务所需步骤的 CoT 空间)中进行测试时的搜索,受基础 LLM 深度学习先验的引导。解决单一 ARC-AGI 任务可能需要消耗数千万个 token,成本高达数千美元,原因就在于搜索过程需要探索程序空间中的大量路径——包括回溯。

然而,这里所发生的情况与我之前所描述的「深度学习引导的程序搜索」作为通向 AGI 的最佳路径,存在两个重要区别。首先,o3 生成的程序是自然语言指令(由 LLM「执行」),而不是可执行的符号程序。这意味着两点:第一,它们无法通过执行和直接评估与现实产生联系——而是必须通过另一个模型进行适用性评估,而这种评估缺乏实际基础,因此可能在分布外操作时出错。第二,系统不能像 AlphaZero 那样自主学习如何生成和评估这些程序;它依赖于专家标注的、人类生成的 CoT 数据。

目前,我们尚不清楚新系统的具体局限性以及它的扩展潜力。需要进一步测试才能揭示。不管怎样,目前的表现已是一次显著的突破,并明确表明,直觉引导的测试时程序空间搜索是一种强大的范式,能够帮助构建适应任意任务的 AI 系统。

下一步是什么?

首先,2025 年 ARC 奖项竞赛推动下的 o3 开源复制将对推动研究社区前进至关重要。对 o3 的优势和局限性的彻底分析对于理解其扩展行为、潜在瓶颈的性质以及预测进一步发展可能解锁的能力是必要的。

此外,ARC-AGI-1 现在已经趋于饱和 —— 除了 o3 的新得分外,事实上,大量低计算量的 Kaggle 解决方案现在在半私有评估上可以达到 81%。

我们将通过一个新版本 —— ARC-AGI-2 —— 提高门槛,这个版本自 2022 年起一直在研发中。它承诺对现有技术状态进行重大重置。我们希望它通过艰难、高信号的评估推动 AGI 研究的边界,突出当前 AI 的局限性。

我们的初步 ARC-AGI-2 测试表明,它将对 o3 仍然非常有用且极具挑战性。当然,ARC 奖项的目标是产生一个 高效开源 的解决方案,以赢得大奖。目前我们打算在 ARC 奖项 2025(预计发布时间:第一季度末)与 ARC-AGI-2 同时发布。

展望未来,ARC 奖项基金会将继续创建新的基准测试,以将研究人员的注意力集中在通往 AGI 路上的最难解决的问题上。我们已经开始着手开发第三代基准测试,完全脱离 2019 年 ARC-AGI 的格式,并融入一些令人兴奋的新想法。


参与进来:开源分析

今天,我们还发布了高计算量 o3 测试的数据(结果、尝试和提示),并希望得到您的帮助来分析这些结果。

特别是,我们非常好奇 o3 无法解决的约 9% 公开评估任务,尽管有大量计算,但对人类来说却是简单的任务。

建议的分析:

  • o3 能解决和不能解决的任务有哪些特征?
  • 你如何量化 o3 无法解决的任务的属性?超越描述性统计(如网格大小、颜色数量等)。
  • 你能为任务分配一个“难度分数”吗?这是否与 o3 的表现相关?
  • 如果你要制作新任务,你会针对哪些属性来使它们对 o3 更容易或更难?

我们邀请社区帮助我们评估已解决和未解决任务的特征。

为了激发您的思路,以下是 o3 高计算量无法解决的三个任务示例。

ARC-AGI 任务 ID: c6e1b8da

ARC-AGI 任务 ID: c6e1b8da

ARC-AGI 任务 ID: 0d87d2a6

ARC-AGI 任务 ID: 0d87d2a6

ARC-AGI 任务 ID: b457fec5

ARC-AGI 任务 ID: b457fec5

查看我们完整的 o3 测试数据集。

这是测试中使用的提示。

我们还在我们的 Discord 中创建了一个名为 oai-analysis 的新频道,我们很乐意在那儿听到您的分析和见解。或者在 X/Twitter 上标记我们 @arcprize


结论

总之 —— o3 代表了一个显著的飞跃。它在 ARC-AGI 上的表现突显了适应性和泛化能力上的真正突破,以一种其他基准测试无法如此明确的方式。

o3 解决了 LLM 范式的根本限制 —— 无法在测试时重组知识 —— 并通过一种 LLM 引导的自然语言程序搜索的形式实现了这一点。这不仅是渐进式的进步;这是新领域,需要严肃的科学关注。



原文作者:François Chollet
原文链接:https://arcprize.org/blog/oai-o3-pub-breakthrough

本文由作者按照 CC BY 4.0 进行授权