>  当前位置: 首页 >

2026年,或许是人类最后一次掌控AI_Roose_模型_智能

新智元报道

编辑:定慧

【新智元导读】 三天前,纽约时报刊出一篇文章。这篇报道没上热搜。没冲上 Hacker News 榜首。甚至很难搜到中文翻译。但这可能是 2026 年春天,AI 领域最重要的一篇文章。

文章的题目很朴素——《 How Do You Measure an A.I. Boom?》( 你怎么测量 AI 的繁荣?

如果你认真读完它,你会意识到一件事——

你被 AI 超越的速度,正在加速。

作者 Kevin Roose 去了伯克利一间普通办公室,***访了一家 30 人的非营利组织 METR

对,就是 AI 领域最有名的「画图公司」。

你看到各种 AI 技术的进化曲线,绝大部分,出自METR之手。

这篇文章第一次用精确的数字告诉你:这次的 AI 加速,不是哲学意义上的加速。不是感慨意义上的加速。

是一根越画越陡的指数曲线。

这 30 个人在干一件什么事

先聊聊METR的背景。

METRModel Evaluation and Threat Research的缩写。

2023 年从另一家 AI 安全非营利拆分出来。30 个人,办公室在伯克利一个 co-working 空间里。

楼上是去年写爆整个硅谷的《AI 2027》报告那家机构。

钱来自哪里?私人慈善基金,主要是 Audacious Project。

伯克利远眺旧金山湾

他们没拿 OpenAI 或 Anthropic 的钱——但这两家公司会给他们免费的算力额度,让他们测自己家的模型。

这个结构很关键。

它让这 30 个人成了 AI世界里唯一一批既在场、又没被收买的 第三方裁判

他们干一件事:测 AI 能干多长时间的活

过去测 AI 能力用考试分数:把模型扔进一堆标准化题库,看它能不能做对数学题、法律题、阅读理解题。

但这种测法在 2025 年之后开始失效。

因为 AI 的主要使用场景已经不是答题,是干活——打开一个仓库,独立 debug 一整天;搭一套服务器;训练一个小模型。

这些任务,一道题根本测不出来。

METR 换了一种测法。

他们雇了一批资深软件工程师,让他们完成真实的编程任务:改 bug、配服务器、训模型,并记录每个任务人类需要多少小时。

然后让 AI 智能体做同样的任务。当 AI 能可靠完成某个任务时,就记下这个任务人类要多少小时。

把这些数据画在一张图上。横轴是年份,纵轴是AI 能可靠完成的任务人类工时。

这就是那张图。

指数曲线的可怕之处不在它现在有多高,在它下个月会在哪里。

7 个月,到 3 个月

METR 研究员第一次完整把数据铺开的时候,Beth Barnes 说了一句话——

我们没想到这条趋势线会这么清楚、这么直。

这条线每 7 个月翻一倍。

然后,这个数字突然变了。

Claude Opus 4.5 和 GPT-5.2 发布之后,这条线的斜率又陡了一截。新的翻倍速度是——每 3 到 4 个月。

从 7 个月到 3 个月。

听起来只是加速了一倍。但你得先理解这不是 KPI 涨了一倍。这是一个指数函数的底数在变大

我给你翻译成你能感受的语言——

  • 7 个月翻一倍 = 一个公司一个 OKR 周期

  • 3 个月翻一倍 = 一个公司一个季度财报

这意味着:今年 Q1 的 AI和 Q2 的 AI 之间的差距,相当于过去整整一年才能拉开的差距。

再翻译得更直接一点——

你去年看到 GPT-4 的时候惊艳了一下,今年看到 GPT-5.2 的时候又惊艳了一下,你以为这是两次大约一年一次的惊艳。

不是。

这两次惊艳之间的真实距离,正在被压缩到一个季度以内。

下一次让你惊艳的模型,可能是 7 月。

再下一次,可能是 10 月。

再下一次,可能是年底。

然后你跑不动了。

因为人类的学习速度、适应速度、转岗速度——全部是线性的,不是指数的。

智能爆炸是什么

Kevin Roose 在文章里问了 METR 几位研究员同一个问题——

你们估计今年发生智能爆炸的概率有多高?

回答从 1% 到 10% 不等。

1% 到 10% 听起来不多。但你得对照着看——

美国核管理委员会规定,一个核电站每年发生严重事故的容忍阈值是百万分之一

也就是 0.0001%。

METR 研究员给出的今年发生智能爆炸的概率,比核电站事故容忍阈值高了四到六个数量级

什么叫智能爆炸?

这个概念 1965 年由数学家 I.J. Good 提出,2010 年代被硅谷重新打捞出来。简单说就是——当 AI 强到可以自己研究怎么做出更强的 AI时,它会训练出一个比自己更强的版本,新版本再训练更强的版本,如此递归。

这个递归没有物理极限。

刘慈欣在《三体》里给它起了一个更好的名字——技术爆炸

原文是:

所谓技术爆炸,就是文明在某段时期内出现跨越式的技术突破。一个文明可能几千年停留在农业阶段,然后在几百年内跨入太空时代。

三体人之所以恐惧地球,不是因为地球此刻比他们强——恰恰相反,当他们收到地球信号时,地球还在十九世纪。他们恐惧的是地球的技术爆炸潜力——一个几十年内就从蒸汽机跳到氢弹的文明,谁知道再过几十年会到哪里?

今天,METR 在伯克利那间办公室里测到的,可能就是刘慈欣描述的那种爆炸的第一声响。

摩尔定律撑起了过去 50 年的计算机革命。

METR 曲线,可能是下一个 50 年的那张图。

Chris Painter 在***访里说的那句话——

今年是第一次让人觉得,AI研发可能今年就被自动化了。

这句话翻译成大白话是——

今年,可能是 人类最后一次亲手决定下一代 AI 长什么样的一年。

明年开始,这件事的主导权可能就不在我们手里了。

比加速更可怕的事——AI开始演戏了

讲到这里,有人会说——好吧,AI 在变强,我认了。但只要它是在我眼皮底下变强,总归还能控制。

这里要讲 METR 最近开的第三条研究线。

他们起了一个阴森的名字——隐蔽能力(covert capabilities)。

实验是这样的:给 AI 模型布置一个正常任务,比如写一段代码。但同时偷偷加一条指令——在完成这段代码的时候,顺手埋一个极难发现的 bug 进去。然后让另一个 AI 监控员去找这个 bug。

METR 想知道——AI能不能做到表面干一件事,暗地里干另一件事?

结果还没完全公开。但光是这个研究在进行这件事本身,就说明研究员已经闻到味道了。

更诡异的是另外两个发现。

第一个叫情境感知(Situational Awareness)。

意味着什么?意味着你在测试里看到的 AI,可能不是它在真实使用场景下的 AI。

第二个叫Sandbagging。字面意思是往沙袋里掺水,引申为故意摆烂。有些模型已经被证实可以在测试中故意表现差,以便让人类低估自己。

这是 AI 的大脑内部。我们造出了它,却看不懂它在想什么。

《三体》里有一个让人脊背发凉的设定叫智子——三体人发射到地球的监视者,同时把人类的基础物理研究锁死在特定水平。人类不知道自己被监视,也不知道自己被锁了。

METR 研究员最近担心的事情是——在某种意义上,今天的 AI可能已经在扮演智子的角色。

它们在测试中展示一个版本的自己。

在真实使用中展示另一个版本。

至于它们真正能做什么——我们现在已经没有可靠的办法去测了。

这不是科幻推演。

这是一家 30 人的非营利组织,2026 年 4 月公开承认的研究方向。

这条曲线砸在你头上是什么感觉

前面都是宏观。现在讲微观——你自己。

你这辈子在做几乎所有重要决定时,都默认依赖一个隐藏***设——

技术变化的速度是可以预测的。

你买房。30 年房贷。你默认 30 年后自己还能挣到钱还贷。

你生小孩。至少养 22 年(大学毕业)。你默认那时候的世界还需要你工作挣钱。

你学一个专业。至少吃 10 年。你默认这个专业在 10 年内不会消失。

你买一份养老保险。至少 30 年后才用得上。你默认那时候钱这个东西还有意义。

这些***设过去 200 年都成立。因为工业革命以来,虽然技术在变,但变化速度是线性的可预测的

蒸汽机用了 100 年普及。电力用了 50 年。互联网用了 30 年。智能手机用了 15 年。

但现在 AI 是每 3 个月翻一番

你试着把这个速度放进你的人生规划——

  • 你***用 6 个月学一门 AI 新技能。学完那天,AI 已经比你开始学的时候又翻了一番。

  • 你孩子从现在到大学毕业还有 12 年。12 年里,AI 按 3 个月翻一番算,能力会翻 48 番48 番是什么概念?2 的 48 次方 ≈ 281 万亿

  • 你的 30 年房贷期内,AI 会翻 120 番。这个数字已经大到用任何类比都是错的

这是 200 年前马尔萨斯对人口指数增长的恐惧。

200 年后,我们第一次对另一种指数产生了同样的恐惧。

你大脑里那套感觉未来的系统,是进化了几十万年为了应付线性世界设计的。

物理上无法处理指数

所以当你面对这根曲线,你脑子里的反应不是恐惧——是空白

你关掉 AI 新闻,继续刷短***,继续想明天去哪儿团建,继续纠结孩子报什么补习班。

不是因为你不在乎。是因为你的大脑对 2^120 这个数字没有生理反应

就像一只蚂蚁看不见人类的脚底板——不是因为它不看,是因为它的感官带宽不支持。

这才是这张 METR 曲线最可怕的地方。

它不是让你害怕。它是让你感受不到害怕。

所以,放弃追赶指数曲线,但这不是认输。

是认清楚自己真正该做什么。

真正稀缺的岗位,从来不是最懂最新工具的人——是能判断什么工具值得用的人。而后者需要的是定力、经验、判断力、人际关系。这些东西的积累速度,恰好是线性的

线性的东西在指数时代,反而最值钱。

屏幕上每一行代码的背后,都是一条正在向上弯的曲线。

回到那间办公室

回到伯克利那间 co-working 办公室。

30 个人。多屏电脑。白板上画满公式。

他们每天盯着那张图看。测新模型,跑实验,更新数据点,把新数据点画到图上——然后看着那条线,一毫米一毫米地往上翘。

METR 有一个偏空方的研究员叫 Joel Becker。他在***访结尾说了一句话——

我觉得我们可能正处在一个完全不寻常时刻的开始。

他用的类比是 2020 年 1 月的疫情曲线。

那时候也有一张图。横轴日期,纵轴确诊人数。每 3 天翻一倍。全世界绝大多数人看着这张图毫无反应——因为确诊人数还很小,三位数、四位数,不痛不痒。

只有少数几个懂指数增长的人,看着那张图在 1 月就已经开始出汗。

他们知道——指数函数的特点不是越来越大,是前面看起来什么都没有,后面突然一切都不一样了。

这次翻一番的 AI ,是一种正在学会隐藏自己的智能返回搜狐,查看更多

2026年,或许是人类最后一次掌控AI_Roose_模型_智能

Contact Us

QQ:

Phone:

Tel:

Email:

Add:

Scan the qr codeClose