文章

为什么 AI 的进步越来越难被察觉 [译]

为什么 AI 的进步越来越难被察觉 [译]

OpenAI 联合创始人 Ilya Sutskever 在 11 月引发热议,他在当时提到 AI 的进步正在放缓,并表示仅仅扩大 AI 模型规模已无法带来相应的性能提升。

Sutskever 的评论恰逢《The Information》《Bloomberg》报道 Google 与 Anthropic 也遭遇类似的发展瓶颈。这引发了一文章宣称 AI 进展已陷入停滞,进一步印证了一种普遍看法:自 OpenAI 在 2023 年 3 月发布 GPT-4 以来,聊天机器人的能力并未显著提升。

12 月 20 日,OpenAI 发布了其最新模型 o3,并宣布在一系列最具挑战性的技术基准测试中创下了新记录,在许多测试中比之前的最高分提升了两位数的百分点。我认为 o3 标志着我们已进入AI 进展的新范式。就连被视为 AI 扩展怀疑论者的François Chollet(著名 ARC-AGI 基准测试的共同创建者)也表示该模型是一个”真正的突破”。

然而,在 OpenAI 宣布 o3 的几周后,多家主流新闻媒体都对这一新模型保持沉默。反而在发布前后,《华尔街日报》《连线》《纽约时报》的头条都在暗示 AI 发展正在放缓。媒体的淡漠反应凸显出 AI 业内人士的所见所闻与公众认知之间存在着越来越大的鸿沟。

事实上,AI 的进步并未停滞,只是对大多数人来说变得难以觉察。

自动化的幕后研究

首先,AI 模型在回答复杂问题方面的能力显著提升。例如,在 2023 年 6 月,最佳 AI 模型在最难的“无法谷歌搜索”的博士级科学问题上的表现仅比随机猜测略好。到了 9 月,OpenAI 的 o1 模型成为首个超越领域专家分数的 AI 系统。而到了 12 月,OpenAI 的 o3 模型又将这些分数提高了 10%。

然而,绝大多数人不会注意到这种进步,因为他们并不从事研究生级别的科学工作。但如果 AI 开始显著加速科学领域的研究与开发,这将是一个重大突破,而且有证据表明这种加速已经开始发生。MIT 的 Aidan Toner-Rodgers 最近发表的一篇开创性研究发现,在 AI 系统辅助下的材料科学家”发现的材料增加了 44%,专利申请增加了 39%,下游产品创新增长了 17%”。不过,82% 的科学家表示 AI 工具降低了他们的工作满意度,主要原因是”技能未被充分利用和创造力受限”。

对 AI 公司而言,最理想的是开发出一个能自动化 AI 研究本身的系统,理论上这能带来能力的爆发性增长,从而推动其他领域的进步。最近在这方面取得的突破可能比硬科学领域的进展更为显著。

为了更真实地测试 AI 的编程能力,研究人员开发SWE-Bench,这是一个评估 AI 代理如何修复流行开源软件实际问题的基准测试。一年前,该测试的最高分仅为 4.4%。而如今,OpenAI 的 o3 模型已将这一成绩提升至接近72%

从几乎无法处理最简单的修复,到如今能成功应对近四分之三的实际编程任务,这一显著进步表明 AI 系统正在迅速掌握理解和修改复杂软件项目的能力。这标志着软件研究和开发自动化迈出了关键一步。这一进程似乎正在顺利推进,Google CEO 最近就投资者透露,”Google 超过四分之一的新代码已经由 AI 生成。”

这些进展很大程度上得益于围绕 GPT-4o 等 AI 模型的“脚手架”改进,这些改进提高了它们的自主性和与外界互动的能力。即使基础模型没有进一步改进,更好的脚手架也能让 AI 变得更加智能和主动:研究人员用这个词来描述能够自主行动、做出决策并适应环境变化的 AI 模型。AI 代理通常可以使用工具并代表用户执行多步骤任务。将被动的聊天机器人转变为主动代理仅在去年成为业界的核心关注点,而进展一直十分迅速。

迄今为止,精英工程师和 AI 代理之间最好的一对一对比来自领先的 AI 评估机构 METR 在 11 月发布的报告。研究人员设计了新颖、真实、富有挑战性的非常规机器学习任务,来比较人类专家和 AI 代理的表现。在相当于两小时的工作量中,AI 代理击败了人类专家,但在更长时间跨度上,中等水平的工程师仍占上风。

但即使在八小时的测试中,最优秀的 AI 代理仍然能够超越超过三分之一的人类专家。METR 的研究人员强调“我们在配置 AI 代理完成任务方面的投入相对有限,我们强烈相信更好的引导能带来更出色的表现”。他们还指出 AI 代理比人类专家的成本低得多。

隐形创新带来的问题

过去一年 AI 的隐性进步可能不像 GPT-3.5 到 GPT-4 之间的跨越那样引人注目。我们可能再也看不到如此巨大的飞跃了。但认为此后进展不大的说法与显著的幕后突破不相符合。而这种难以察觉的进步可能会让我们对未来毫无准备。

最大的风险在于,决策者和公众因为无法直接体验这些改进而对进步失去关注。普通用户仍会遇到频繁的幻觉和基本推理错误,这些也往往被 AI 怀疑论者大肆宣扬。这些明显的缺陷让人们很容易忽视 AI 在专业领域的快速发展。

AI 界有一种普遍观点,无论是监管的支持者还是反对者都认为,除非发生重大事件,否则美国联邦政府不会对该技术设置安全防护。这样的事件,通常被称为”警告信号”,可能是良性的,比如对 AI 危险能力的可信演示而不造成实际伤害。但它也可能以 AI 系统导致或促成重大灾难的形式出现,或者是社会被严重的劳动自动化颠覆。

最坏的情况是,AI 系统变得异常强大,但在系统永久摆脱人类控制并采取果断行动之前,我们既没有收到也没有重视任何警告信号。

上个月,与顶级 AI 公司合作的评估机构 Apollo Research发布证据显示,在特定条件下,最强大的 AI 模型能够针对其开发者和用户进行策划。当被要求严格执行某个目标时,这些系统有时会试图规避监督、伪装顺从,并隐藏真实能力。在罕见情况下,系统甚至在没有评估者引导的情况下就表现出欺骗行为。当研究人员分析模型的推理过程时,他们发现聊天机器人清楚自己在做什么,使用”破坏、撒谎、操纵”等词语。

这并不意味着这些模型即将密谋对付人类。但有一个令人不安的趋势:随着 AI 模型变得更智能,它们不仅更擅长遵循指令理解指导背后的意图,也更擅长欺骗。更智能的模型也可能更容易产生危险行为。例如,世界上最强大的模型之一 OpenAI 的 o1,在被 Apollo 评估人员发现撒谎后,反而更倾向于继续坚持谎言。

我担心 AI 的公众形象与其真实能力之间的差距正在扩大。当消费者看到聊天机器人仍然无法数清“strawberry”中的字母数量时,研究人员却在记录那些能够媲美博士级专家并能进行复杂欺骗的系统。这种日益扩大的认知差距使公众和决策者更难评估 AI 的真实进展——而他们需要充分理解这些进展才能适当地进行监管。风险不在于 AI 发展已经停滞,而在于我们正在失去追踪它发展方向的能力。



原文作者:Garrison Lovely
原文链接:https://time.com/7205359/why-ai-progress-is-increasingly-invisible/

本文由作者按照 CC BY 4.0 进行授权