首页
看点啥
插画图片
首页 热点时事 Anthropic 万字爆火长文的三个判断与一个值得警惕的阳谋

Anthropic 万字爆火长文的三个判断与一个值得警惕的阳谋

2026-06-08 0

原创 快刀青衣 2026-06-07 10:02 北京

先看清真实数据,再识别叙事框架。

这几天,全球科技媒体都在转一篇非常长的文章,国内讲AI的公众号也全在聊,非常爆。就是全球最顶尖的AI公司之一的Anthropic发的,标题叫《When AI builds itself》。

在周五的下午,我真的把这篇文章看了三遍,每次看的感受都不太一样。这篇文章信息量极大,里面全是他们内部的真实数据,很多是第一次公开。但我越读越觉得,这篇文章不只是「分享数据」这么简单。

所以今天我想做两件事。第一,把这篇文章里普通人最该关注的几个判断,用大白话讲出来,重点不是「AI多厉害」,而是「然后呢,我该怎么办」。第二,讲完这几个判断之后,我想聊聊这篇文章没告诉你的背后的那些东西。

01 执行力的价格趋近于零

先说第一个判断。

Anthropic现在合入生产代码库里,超过80%是Claude写的。两年前,大家想要证明自己的产研团队是不是足够AI化,都会用AI写的代码占总量的百分比来衡量,最初10%或者20%就已经算AI创新企业了。

这个数字在2025年2月之前,Anthropic内部也还只是个位数,毕竟他们团队成员基本都是全球顶级的程序大牛,让他们接受当时AI写的乱七八糟的代码,会更难。

但是只需要一年多时间,现在就已经从「偶尔AI帮忙写几段代码,再粘贴到人类的代码里」,变成了「AI主力输出」。所以他们工程师今年日均合入代码量,是2024年的8倍。

但8倍这个数字,是按代码行数算的,肯定高估了真实生产力提升。这就好像两个厨师,A厨师一个小时可以做五道菜,B厨师一个小时只能做一道菜,你就直接把B厨师开除了,丝毫不考虑A厨师做的菜非常难吃,B厨师做的是招牌菜。

不过8倍这个数量差,就不能说是小优化了,这些代码都经过了人类工程师的审核,基本逻辑没问题。

所以Anthropic的程序员,工作方式已经变了。以前是我理解需求,我打开编辑器,我写代码,我测试,我提交。现在越来越像这样:我把目标告诉AI,AI写代码、跑测试、修bug,我判断它有没有走偏,我做审查和合并。

不仅仅是Anthropic的工程师,我相信大部分的程序员都已经是这种工作状态了。

注意这个变化,程序员正在从「手艺人」变成「技术监工」。以前一个导演要亲自扛摄像机、打灯、剪片,现在他面前有十几个AI摄制组。他的价值不再是手速,而是知道要拍什么、哪里不对、什么时候喊停。

所以第一个判断是,执行力的价格正在趋近于零。这跟摄影一个道理,当每个人都有了能自动对焦、自动修图的手机之后,决定一张照片好坏的,不再是你按快门的技术,而是你选择拍什么、在什么角度拍的「眼光」。

人类最值钱的东西,正在从「能做出来」变成「能判断做什么」。

02 稀缺能力:验收AI的结果

第二个判断跟第一个是连着的。当AI能写大量代码、提大量方案、跑大量实验之后,新的瓶颈不是「做不出来」,而是「审不过来」。

Anthropic自己就已经遇到了,人类工程师的代码审核成了瓶颈,他们后来不得不用AI做自动审查,发现如果过去每次改动都经过这样的AI审查,大约三分之一导致线上事故的bug可以提前被发现。

但这里有个微妙的地方。大家可以想一想,Claude审Claude写的代码,这个闭环你信多少?就像同一个老师教出来的学生互批考卷,可能对同一类错误集体失明。

回到判断本身。以后一个团队的问题,可能不是「没有方案」,而是「方案太多,没人判断哪个是真的」。一百个AI自动生成的方向里,哪个值得做?哪个看起来对但其实跑偏了?哪个结果漂亮但不可复现?

Anthropic的员工有一段话说得很真实:

在一切顺利的日子里,我忍不住想,我做的任何事都不重要了,一切都被自动化了,它比我永远能达到的水平更好、更快。但当一切崩溃,我又不明白为什么时,我才意识到,我已经完全不知道自己到底在面对什么了。

所以第二个判断是,未来组织最稀缺的能力,不是「会不会用AI」,而是你能不能验收AI的结果,能不能发现它哪里看起来对、实际上错,能不能在一堆自动生成的方案里挑出真正值得做的三个。

我自己也有这个感觉。每次用AI完成一个任务,最危险的时刻不是它做错了,而是它做对了,但我不确定它为什么做对了。

我现在每次用Codex这些工具时,都会在看完结果后,去看一下AI的思考和处理过程——界面上这个过程一般被缩成了一小句话,比如「已处理9分30秒」,但我会去展开看看中间到底发生了什么。

这个习惯现在看起来不紧急,但等到AI产出量真的上来,它就是你的生死线。

03 机器速度与人类速度的裂缝

第三个判断,是这篇文章里最深的一层。

AI能独立完成任务的时间长度,翻倍速度从之前的约7个月加速到了约4个月。2024年3月,4分钟。2025年3月,1.5小时。2026年3月,12小时。照这个速度,今年可能到几天,明年可能到几周。

但注意,METR的核心指标是50%成功率。我之前和你介绍过METR,这是一个独立的第三方大模型衡量机构。而50%成功率这个指标,在研究里是很有价值的信号,但在真实工作里不够用。

你不会把公司数据库迁移交给一个「有一半概率成功」的员工,所以更清醒的表述是:AI的长任务能力正在变强,但它离「无人看管、稳定交付关键任务」还有距离

不过方向是清楚的。如果AI真的开始帮AI公司造下一代AI,进步速度就不再只受人类研究员数量限制,而更受算力、能源、芯片限制。

人类正在逐渐被挤出这个研发循环,进步速度越来越取决于机器了。这才是真正值得担心的:不是某个岗位被替代,而是技术迭代的速度可能快到社会制度跟不上。

文章里有一句话说得很准:

更多的智能无法在一夜之间学会一种药物在几十年使用中的副作用,也无法在一个周末就把陌生人变成老朋友。

实验室里的智能加速到「机器速度」,但药物审批、法律修订、教育改革、人的心理适应,仍然是「人类速度」。这两个速度之间的裂缝,才是普通人真正会遇到的问题。

我举个自己产品研发的例子。我们正在做的得到大脑里有个记忆功能,听起来很简单,就是把你过去10年在得到里的使用痕迹、画的笔记、做的线,用AI的方式做到随时调取。功能写出来、代码写出来、上线,这个难度并不大。

但真正做的时候你会发现,用户在什么任务下需要调什么样的课程、什么样的书、什么样的笔记,以及需不需要调,这些都是需要一步一步打磨出来的场景。你需要了解你的用户群,深入到用户中去,你才知道需求会是什么样子的。

用AI做出来的功能,仅仅是万里长征的第一步。我们最近在各个用户群里收集到非常多的用户反馈,这就是深入到用户使用场景里的慢变量:需要这么多用户真实的使用,并不是AI把功能代码写出来就可以了。

这个打磨的速度,AI再快也替代不了,因为这不是代码问题,是人的问题。用户习惯不是靠功能迭代就能加速的,而是靠一次次靠谱的交付慢慢攒出来的。

所以与其焦虑「AI会不会取代我」,不如想清楚:你的工作里哪些环节是靠慢变量撑着的,那些才是你真正的安全垫

04 标题背后的真相

这篇文章最有价值的地方,是让我们看到AI正在加速AI研发;最危险的地方,是容易让人把「AI帮人造AI」误读成「AI已经能自己造自己」。

文章标题叫《When AI builds itself》,很有冲击力。但严格说,现在发生的还不是完整的递归自我改进,更准确的说法是:人类设目标,AI帮忙写代码、跑实验、调试、整理结果。

真正的AI自我建造,是AI自己发现短板、提出方案、训练部署,然后根据结果调整目标。而且这个循环越转越快。

Anthropic自己也承认「还没到那里」。现在的阶段,不是一条响尾蛇已经咬住自己的尾巴开始无限循环,更像是人类实验室里多了一批非常强的自动化助手。标题指向「自我进化」,数据展示的是「研发加速」,中间有一段需要警惕的跳跃。

所以要认清楚一个事实,80%代码由AI写完,这当然很惊人,但这可不等于80%的研发由AI完成

代码行数不是价值,选什么问题、信什么结果、什么时候停下来,这些判断仍然在人手里。比如,几个技术的闲聊讨论,这肯定不算代码写作,但这是研发过程中必不可少的一部分。

一个关于Transformer的小故事

再和你讲一个小故事,我们都知道这波AI的爆发,起源就是谷歌的那篇非常经典的Transformer架构的论文。

当时在2017年的一天,谷歌著名技术大神沙泽尔(Shazeer)走在谷歌1965号楼的走廊上,正好听到了阿希什·瓦斯瓦尼(Ashish Vaswani)和尼基·帕尔马尔(Niki Parmar)正在激烈地讨论自注意力的想法,他停下来听了一会儿,觉得「这项目听起来是个好主意,这帮人有意思」。

他就主动加入了这个项目,并且从头到尾重写了一版代码。其他人当时都说他是魔法师,因为这个项目已经被卡很久了,成绩一直上不去,但是沙泽尔重写了代码之后,模型被拉高到了一个新水平。

在这个小故事里,大家想想,无论是人的争论和偶遇,还是沙泽尔把代码重写一遍的事情,这都是人类的价值所在,而不仅仅是把代码写出来就完了。

当然,沙泽尔后来出去自己创业,谷歌在2024年又花了27亿美元把他的公司收购了,核心目的并不是要他这个创业公司,而是把他请回去共同领导现在我们都在使用的Gemini。

故事讲完了。要知道,这些数据是Claude的「主场数据」。Anthropic是Claude的制造商,它自己的工程师懂模型,工具链围绕Claude优化,内部任务天然适合Claude学习和适配。

这就像考试自己出题自己答,然后说自己考了98分,不是说98分是假的,但你得知道文章中的这个98分是在什么条件下拿的。

05 一个值得警惕的阳谋

好,判断讲完了。但读到这里,你可能已经感觉到了,这篇文章有些地方不太对劲。

这篇文章最后有一段话,也是过去一周传播最广的一段话。大意是,如果风险继续上升,世界应该有能力让前沿AI开发慢下来或者暂停。Anthropic说,如果有可验证的暂停机制,他们也愿意慢下来。

听起来很负责任对吧?但这句话的位置很微妙。

它把「不慢下来」的责任推给了「别人不慢」,自己保持了道德高地。翻译一下就是,不是我停不下来,是别人不停,我也不敢停。

现在来看一条这篇文章背后的时间线:2026年5月,Anthropic完成650亿美元H轮融资,估值9650亿美元。2026年6月1日,Anthropic秘密提交IPO申请。而这篇文章的发布时间,就在提交IPO的同一周。

我不是说这篇文章是公关稿。它里面有真实信号,Claude确实正在重塑Anthropic自己的研发流程。但一篇「带战略目的的真文章」,比一篇纯假文章更值得警惕,因为它让你在吸收真实信息的同时,不知不觉也接受了它的叙事框架。

这个叙事框架的核心操作是,把「AI辅助研发」讲得很像「AI自我进化」。标题指向自我进化,数据展示的是研发加速,结尾呼吁暂停。

整篇文章读完,你会有一种感觉,AI已经快失控了,需要有人来管。而谁最懂怎么管?当然是正在造AI的前沿公司。

同样的剧本:巴鲁克计划

1946年,同样的剧本上演过一次。

那年6月14日,75岁的华尔街传奇人物伯纳德·巴鲁克(Bernard Baruch),代表美国走进联合国。他开场就说了一句话,「我们面临的是生与死的抉择。」

你看,把「是否接受国际控制原子能」直接等同于选择生死,不给任何中间立场留空间。听起来很耳熟对吧?Anthropic这篇文章,也是在用「AI自我进化」的叙事制造紧迫感,让你觉得要么接受他们的方案,要么面对失控。

巴鲁克计划的核心设计是「先建立控制体系,再销毁核武器」。表面上看,先建监督机制再销毁武器,很合理。但关键就在这个「先……后……」的顺序,美国先获得对全球原子能活动的控制权,然后才承诺销毁自己的核武器。在控制体系建立之前的过渡期,美国继续垄断核武器。

计划里还藏了一颗暗钉,要求国际原子能机构的执法行动不受安理会否决权约束。要知道,苏联在安理会拥有否决权,这是二战后大国博弈的核心机制。巴鲁克计划要求苏联在原子能问题上放弃否决权,等于让苏联在一个关键安全领域交出最后的防御手段。

巴鲁克提出计划后,苏联代表葛罗米柯(Gromyko)很快就针锋相对地提出了反方案,逻辑正好反过来,先销毁核武器,再讨论国际控制。

葛罗米柯的立场很清楚,你先把原子弹销毁了,我们再来谈监督。你手里攥着原子弹让我接受监督,这不是和平,这是胁迫。这是不是听起来也很合理?苏联根本不需要时间考虑,早就看穿了巴鲁克计划背后的小心思。

谈判持续了约半年,最终破裂。1946年底苏联投了弃权票。但美国获得了它真正想要的东西,那就是「我们提议了和平,是对方不配合」的道德高地。与此同时,美国继续垄断核武器,直到1949年苏联成功试爆自己的原子弹。

美国前国务卿伯恩斯(James Byrnes)有一句话,说得一点没遮掩,大意是:

原子弹很可能让我们在战争结束时,按自己的条件说了算。

你发现没有,把这句话放到今天,把「原子弹」换成「前沿AI模型」,几乎不用改字。

Anthropic呼吁的「可验证暂停机制」,跟巴鲁克计划的「对违反者迅速且有保证的惩罚」,结构上是一致的。

谁有能力验证别人有没有暂停?谁有资源承担合规成本?答案都是只有最领先的那几家,如果现在暂停AI的发展,那么包括Anthropic在内的现有领先者就会锁定AI能力的优势地位。

当然,我并不是说Anthropic的安全关切是假的,他们可能真的担心风险,但同时,又恰好从自己的担忧中获得最大的利益。这两件事可一点儿不矛盾。

06 如何阅读这篇文章

所以,对于这篇文章,我建议你可以去看看原文,用翻译软件或者AI工具也非常简单,我把原文地址也放在文稿末尾了。

看的过程中,记住一个判断标准:凡是「自己出题自己答」的数据,降一档信任;凡是「呼吁监管」的同时正在融资上市的,多想一步谁受益

带着这个标准,再看三层:

第一层,可以相信。Claude正在显著加速Anthropic内部研发,尤其是代码生成、实验执行、bug修复。趋势是真的。

第二层,谨慎相信。AI会让前沿公司研发更快,但具体倍数、普适性、成本收益,需要第三方验证。他们的主场数据不能当全世界通用真理。

第三层,暂时不要当事实。「AI即将完整自我改进」「人类很快退出研发核心循环」「100人公司稳定做10万人组织的事」,这些是情景推演,不是已经发生的现实。

最后还有一点,文章里不少关键判断来自Anthropic内部数据,有些评估还是用Claude来评价Claude的表现。自己审自己,这个闭环你信多少,自己掂量。

80年过去了,领先者的剧本一点儿没换。

我还在得到电子书里找到一本《美国重要核战略资料选编(1940-1988)》,里面详细讲了巴鲁克计划,看完真是唏嘘。

一个公司担忧AI风险,和可以从AI风险中挣到大量的财富,这不矛盾。而喜欢一家公司的AI产品,和非常讨厌同一家公司的价值观,居然也不矛盾。

原文链接:https://www.anthropic.com/institute/recursive-self-improvement

? 直播预告

6月11日晚8点,我将在我的视频号「快刀青衣学AI」上与你深度拆解5个AI案例。

从真实使用场景出发,带你一步步看如何真正用好AI提效。不需要编程基础,只需要搞清楚自己的需求,就能让AI真正为你所用。

欢迎你点击下方链接预约这场直播,也欢迎你将直播转发给身边关注AI的朋友,一起参与进来。

推荐阅读

从大脑研究看「顿悟时刻」:防止思考被AI外包的四个实操方法

重构个体:一套逻辑让你从AI旁观者变成系统架构师

Get笔记升级为「得到大脑」:让你更好地记录痕迹,输出作品

从被碾压到异军突起:Codex这两年都发生了什么?

阅读原文

喜欢(0)

上一篇

37万次真实会话实测Agent榜单:GPT-5.5High第一 Claude最稳 真实干活能力看这五项核...

37万次真实会话实测Agent榜单:GPT-5.5High第一 Claude最稳 真实干活能力看这五项核...

下一篇

如何借助Skywork配置高效的自动化工作流链路

如何借助Skywork配置高效的自动化工作流链路
猜你喜欢