: 首页; 看点啥; 插画图片

首页热点时事 Anthropic 万字爆火长文的三个判断与一个值得警惕的阳谋

Anthropic 万字爆火长文的三个判断与一个值得警惕的阳谋

2026-06-08 0

原创快刀青衣 2026-06-07 10:02 北京

先看清真实数据，再识别叙事框架。

这几天，全球科技媒体都在转一篇非常长的文章，国内讲AI的公众号也全在聊，非常爆。就是全球最顶尖的AI公司之一的Anthropic发的，标题叫《When AI builds itself》。

在周五的下午，我真的把这篇文章看了三遍，每次看的感受都不太一样。这篇文章信息量极大，里面全是他们内部的真实数据，很多是第一次公开。但我越读越觉得，这篇文章不只是「分享数据」这么简单。

所以今天我想做两件事。第一，把这篇文章里普通人最该关注的几个判断，用大白话讲出来，重点不是「AI多厉害」，而是「然后呢，我该怎么办」。第二，讲完这几个判断之后，我想聊聊这篇文章没告诉你的背后的那些东西。

01 执行力的价格趋近于零

先说第一个判断。

Anthropic现在合入生产代码库里，超过80%是Claude写的。两年前，大家想要证明自己的产研团队是不是足够AI化，都会用AI写的代码占总量的百分比来衡量，最初10%或者20%就已经算AI创新企业了。

这个数字在2025年2月之前，Anthropic内部也还只是个位数，毕竟他们团队成员基本都是全球顶级的程序大牛，让他们接受当时AI写的乱七八糟的代码，会更难。

但是只需要一年多时间，现在就已经从「偶尔AI帮忙写几段代码，再粘贴到人类的代码里」，变成了「AI主力输出」。所以他们工程师今年日均合入代码量，是2024年的8倍。

但8倍这个数字，是按代码行数算的，肯定高估了真实生产力提升。这就好像两个厨师，A厨师一个小时可以做五道菜，B厨师一个小时只能做一道菜，你就直接把B厨师开除了，丝毫不考虑A厨师做的菜非常难吃，B厨师做的是招牌菜。

不过8倍这个数量差，就不能说是小优化了，这些代码都经过了人类工程师的审核，基本逻辑没问题。

所以Anthropic的程序员，工作方式已经变了。以前是我理解需求，我打开编辑器，我写代码，我测试，我提交。现在越来越像这样：我把目标告诉AI，AI写代码、跑测试、修bug，我判断它有没有走偏，我做审查和合并。

不仅仅是Anthropic的工程师，我相信大部分的程序员都已经是这种工作状态了。

注意这个变化，程序员正在从「手艺人」变成「技术监工」。以前一个导演要亲自扛摄像机、打灯、剪片，现在他面前有十几个AI摄制组。他的价值不再是手速，而是知道要拍什么、哪里不对、什么时候喊停。

所以第一个判断是，执行力的价格正在趋近于零。这跟摄影一个道理，当每个人都有了能自动对焦、自动修图的手机之后，决定一张照片好坏的，不再是你按快门的技术，而是你选择拍什么、在什么角度拍的「眼光」。

人类最值钱的东西，正在从「能做出来」变成「能判断做什么」。

02 稀缺能力：验收AI的结果

第二个判断跟第一个是连着的。当AI能写大量代码、提大量方案、跑大量实验之后，新的瓶颈不是「做不出来」，而是「审不过来」。

Anthropic自己就已经遇到了，人类工程师的代码审核成了瓶颈，他们后来不得不用AI做自动审查，发现如果过去每次改动都经过这样的AI审查，大约三分之一导致线上事故的bug可以提前被发现。

但这里有个微妙的地方。大家可以想一想，Claude审Claude写的代码，这个闭环你信多少？就像同一个老师教出来的学生互批考卷，可能对同一类错误集体失明。

回到判断本身。以后一个团队的问题，可能不是「没有方案」，而是「方案太多，没人判断哪个是真的」。一百个AI自动生成的方向里，哪个值得做？哪个看起来对但其实跑偏了？哪个结果漂亮但不可复现？

Anthropic的员工有一段话说得很真实：

❝

在一切顺利的日子里，我忍不住想，我做的任何事都不重要了，一切都被自动化了，它比我永远能达到的水平更好、更快。但当一切崩溃，我又不明白为什么时，我才意识到，我已经完全不知道自己到底在面对什么了。

所以第二个判断是，未来组织最稀缺的能力，不是「会不会用AI」，而是你能不能验收AI的结果，能不能发现它哪里看起来对、实际上错，能不能在一堆自动生成的方案里挑出真正值得做的三个。

我自己也有这个感觉。每次用AI完成一个任务，最危险的时刻不是它做错了，而是它做对了，但我不确定它为什么做对了。

我现在每次用Codex这些工具时，都会在看完结果后，去看一下AI的思考和处理过程——界面上这个过程一般被缩成了一小句话，比如「已处理9分30秒」，但我会去展开看看中间到底发生了什么。

这个习惯现在看起来不紧急，但等到AI产出量真的上来，它就是你的生死线。

03 机器速度与人类速度的裂缝

第三个判断，是这篇文章里最深的一层。

AI能独立完成任务的时间长度，翻倍速度从之前的约7个月加速到了约4个月。2024年3月，4分钟。2025年3月，1.5小时。2026年3月，12小时。照这个速度，今年可能到几天，明年可能到几周。

但注意，METR的核心指标是50%成功率。我之前和你介绍过METR，这是一个独立的第三方大模型衡量机构。而50%成功率这个指标，在研究里是很有价值的信号，但在真实工作里不够用。

你不会把公司数据库迁移交给一个「有一半概率成功」的员工，所以更清醒的表述是：AI的长任务能力正在变强，但它离「无人看管、稳定交付关键任务」还有距离。

不过方向是清楚的。如果AI真的开始帮AI公司造下一代AI，进步速度就不再只受人类研究员数量限制，而更受算力、能源、芯片限制。

人类正在逐渐被挤出这个研发循环，进步速度越来越取决于机器了。这才是真正值得担心的：不是某个岗位被替代，而是技术迭代的速度可能快到社会制度跟不上。

文章里有一句话说得很准：

❝

更多的智能无法在一夜之间学会一种药物在几十年使用中的副作用，也无法在一个周末就把陌生人变成老朋友。

实验室里的智能加速到「机器速度」，但药物审批、法律修订、教育改革、人的心理适应，仍然是「人类速度」。这两个速度之间的裂缝，才是普通人真正会遇到的问题。

我举个自己产品研发的例子。我们正在做的得到大脑里有个记忆功能，听起来很简单，就是把你过去10年在得到里的使用痕迹、画的笔记、做的线，用AI的方式做到随时调取。功能写出来、代码写出来、上线，这个难度并不大。

但真正做的时候你会发现，用户在什么任务下需要调什么样的课程、什么样的书、什么样的笔记，以及需不需要调，这些都是需要一步一步打磨出来的场景。你需要了解你的用户群，深入到用户中去，你才知道需求会是什么样子的。

用AI做出来的功能，仅仅是万里长征的第一步。我们最近在各个用户群里收集到非常多的用户反馈，这就是深入到用户使用场景里的慢变量：需要这么多用户真实的使用，并不是AI把功能代码写出来就可以了。

这个打磨的速度，AI再快也替代不了，因为这不是代码问题，是人的问题。用户习惯不是靠功能迭代就能加速的，而是靠一次次靠谱的交付慢慢攒出来的。

所以与其焦虑「AI会不会取代我」，不如想清楚：你的工作里哪些环节是靠慢变量撑着的，那些才是你真正的安全垫。

04 标题背后的真相

这篇文章最有价值的地方，是让我们看到AI正在加速AI研发；最危险的地方，是容易让人把「AI帮人造AI」误读成「AI已经能自己造自己」。

文章标题叫《When AI builds itself》，很有冲击力。但严格说，现在发生的还不是完整的递归自我改进，更准确的说法是：人类设目标，AI帮忙写代码、跑实验、调试、整理结果。

真正的AI自我建造，是AI自己发现短板、提出方案、训练部署，然后根据结果调整目标。而且这个循环越转越快。

Anthropic自己也承认「还没到那里」。现在的阶段，不是一条响尾蛇已经咬住自己的尾巴开始无限循环，更像是人类实验室里多了一批非常强的自动化助手。标题指向「自我进化」，数据展示的是「研发加速」，中间有一段需要警惕的跳跃。

所以要认清楚一个事实，80%代码由AI写完，这当然很惊人，但这可不等于80%的研发由AI完成。

代码行数不是价值，选什么问题、信什么结果、什么时候停下来，这些判断仍然在人手里。比如，几个技术的闲聊讨论，这肯定不算代码写作，但这是研发过程中必不可少的一部分。

一个关于Transformer的小故事

再和你讲一个小故事，我们都知道这波AI的爆发，起源就是谷歌的那篇非常经典的Transformer架构的论文。

当时在2017年的一天，谷歌著名技术大神沙泽尔（Shazeer）走在谷歌1965号楼的走廊上，正好听到了阿希什·瓦斯瓦尼（Ashish Vaswani）和尼基·帕尔马尔（Niki Parmar）正在激烈地讨论自注意力的想法，他停下来听了一会儿，觉得「这项目听起来是个好主意，这帮人有意思」。

他就主动加入了这个项目，并且从头到尾重写了一版代码。其他人当时都说他是魔法师，因为这个项目已经被卡很久了，成绩一直上不去，但是沙泽尔重写了代码之后，模型被拉高到了一个新水平。

在这个小故事里，大家想想，无论是人的争论和偶遇，还是沙泽尔把代码重写一遍的事情，这都是人类的价值所在，而不仅仅是把代码写出来就完了。

当然，沙泽尔后来出去自己创业，谷歌在2024年又花了27亿美元把他的公司收购了，核心目的并不是要他这个创业公司，而是把他请回去共同领导现在我们都在使用的Gemini。

故事讲完了。要知道，这些数据是Claude的「主场数据」。Anthropic是Claude的制造商，它自己的工程师懂模型，工具链围绕Claude优化，内部任务天然适合Claude学习和适配。

这就像考试自己出题自己答，然后说自己考了98分，不是说98分是假的，但你得知道文章中的这个98分是在什么条件下拿的。

05 一个值得警惕的阳谋

好，判断讲完了。但读到这里，你可能已经感觉到了，这篇文章有些地方不太对劲。

这篇文章最后有一段话，也是过去一周传播最广的一段话。大意是，如果风险继续上升，世界应该有能力让前沿AI开发慢下来或者暂停。Anthropic说，如果有可验证的暂停机制，他们也愿意慢下来。

听起来很负责任对吧？但这句话的位置很微妙。

它把「不慢下来」的责任推给了「别人不慢」，自己保持了道德高地。翻译一下就是，不是我停不下来，是别人不停，我也不敢停。

现在来看一条这篇文章背后的时间线：2026年5月，Anthropic完成650亿美元H轮融资，估值9650亿美元。2026年6月1日，Anthropic秘密提交IPO申请。而这篇文章的发布时间，就在提交IPO的同一周。

我不是说这篇文章是公关稿。它里面有真实信号，Claude确实正在重塑Anthropic自己的研发流程。但一篇「带战略目的的真文章」，比一篇纯假文章更值得警惕，因为它让你在吸收真实信息的同时，不知不觉也接受了它的叙事框架。

这个叙事框架的核心操作是，把「AI辅助研发」讲得很像「AI自我进化」。标题指向自我进化，数据展示的是研发加速，结尾呼吁暂停。

整篇文章读完，你会有一种感觉，AI已经快失控了，需要有人来管。而谁最懂怎么管？当然是正在造AI的前沿公司。

同样的剧本：巴鲁克计划

1946年，同样的剧本上演过一次。

那年6月14日，75岁的华尔街传奇人物伯纳德·巴鲁克（Bernard Baruch），代表美国走进联合国。他开场就说了一句话，「我们面临的是生与死的抉择。」

你看，把「是否接受国际控制原子能」直接等同于选择生死，不给任何中间立场留空间。听起来很耳熟对吧？Anthropic这篇文章，也是在用「AI自我进化」的叙事制造紧迫感，让你觉得要么接受他们的方案，要么面对失控。

巴鲁克计划的核心设计是「先建立控制体系，再销毁核武器」。表面上看，先建监督机制再销毁武器，很合理。但关键就在这个「先……后……」的顺序，美国先获得对全球原子能活动的控制权，然后才承诺销毁自己的核武器。在控制体系建立之前的过渡期，美国继续垄断核武器。

计划里还藏了一颗暗钉，要求国际原子能机构的执法行动不受安理会否决权约束。要知道，苏联在安理会拥有否决权，这是二战后大国博弈的核心机制。巴鲁克计划要求苏联在原子能问题上放弃否决权，等于让苏联在一个关键安全领域交出最后的防御手段。

巴鲁克提出计划后，苏联代表葛罗米柯（Gromyko）很快就针锋相对地提出了反方案，逻辑正好反过来，先销毁核武器，再讨论国际控制。

葛罗米柯的立场很清楚，你先把原子弹销毁了，我们再来谈监督。你手里攥着原子弹让我接受监督，这不是和平，这是胁迫。这是不是听起来也很合理？苏联根本不需要时间考虑，早就看穿了巴鲁克计划背后的小心思。

谈判持续了约半年，最终破裂。1946年底苏联投了弃权票。但美国获得了它真正想要的东西，那就是「我们提议了和平，是对方不配合」的道德高地。与此同时，美国继续垄断核武器，直到1949年苏联成功试爆自己的原子弹。

美国前国务卿伯恩斯（James Byrnes）有一句话，说得一点没遮掩，大意是：

❝

原子弹很可能让我们在战争结束时，按自己的条件说了算。

你发现没有，把这句话放到今天，把「原子弹」换成「前沿AI模型」，几乎不用改字。

Anthropic呼吁的「可验证暂停机制」，跟巴鲁克计划的「对违反者迅速且有保证的惩罚」，结构上是一致的。

谁有能力验证别人有没有暂停？谁有资源承担合规成本？答案都是只有最领先的那几家，如果现在暂停AI的发展，那么包括Anthropic在内的现有领先者就会锁定AI能力的优势地位。

当然，我并不是说Anthropic的安全关切是假的，他们可能真的担心风险，但同时，又恰好从自己的担忧中获得最大的利益。这两件事可一点儿不矛盾。

06 如何阅读这篇文章

所以，对于这篇文章，我建议你可以去看看原文，用翻译软件或者AI工具也非常简单，我把原文地址也放在文稿末尾了。

看的过程中，记住一个判断标准：凡是「自己出题自己答」的数据，降一档信任；凡是「呼吁监管」的同时正在融资上市的，多想一步谁受益。

带着这个标准，再看三层：

第一层，可以相信。Claude正在显著加速Anthropic内部研发，尤其是代码生成、实验执行、bug修复。趋势是真的。

第二层，谨慎相信。AI会让前沿公司研发更快，但具体倍数、普适性、成本收益，需要第三方验证。他们的主场数据不能当全世界通用真理。

第三层，暂时不要当事实。「AI即将完整自我改进」「人类很快退出研发核心循环」「100人公司稳定做10万人组织的事」，这些是情景推演，不是已经发生的现实。

最后还有一点，文章里不少关键判断来自Anthropic内部数据，有些评估还是用Claude来评价Claude的表现。自己审自己，这个闭环你信多少，自己掂量。

80年过去了，领先者的剧本一点儿没换。

我还在得到电子书里找到一本《美国重要核战略资料选编（1940-1988）》，里面详细讲了巴鲁克计划，看完真是唏嘘。

一个公司担忧AI风险，和可以从AI风险中挣到大量的财富，这不矛盾。而喜欢一家公司的AI产品，和非常讨厌同一家公司的价值观，居然也不矛盾。

原文链接：https://www.anthropic.com/institute/recursive-self-improvement

? 直播预告

6月11日晚8点，我将在我的视频号「快刀青衣学AI」上与你深度拆解5个AI案例。

从真实使用场景出发，带你一步步看如何真正用好AI提效。不需要编程基础，只需要搞清楚自己的需求，就能让AI真正为你所用。

欢迎你点击下方链接预约这场直播，也欢迎你将直播转发给身边关注AI的朋友，一起参与进来。