首页
看点啥
插画图片
首页 热点时事 AI让弦理论研究提速100倍!哈佛史上最年轻华人教授加盟OpenAI

AI让弦理论研究提速100倍!哈佛史上最年轻华人教授加盟OpenAI

2026-06-05 0

原创 花叔 2026-06-04 16:07 天津

前几天,海外的AI圈和基础科学的学术圈有个传闻挺热闹的:尹希,哈佛史上最年轻的华人正教授,弦理论这门基础科学里最难啃方向的顶尖学者,据爆料离开哈佛去了OpenAI。当然,到目前为止OpenAI、哈佛和他本人都还没正式回应,也有人说他只是停薪留职去那边待一阵。

先说尹希是谁。他1983年生,12岁进中科大少年班,2006年拿到哈佛物理博士,2015年31岁晋升正教授,是哈佛史上最年轻的华人正教授之一。研究方向是弦理论和量子引力,物理学里最抽象、最难出成果的硬骨头,拿过斯隆研究奖和基础物理学突破奖的新视野奖,长期被同行看作有希望冲诺奖的苗子。就这么一个人,现在公开把宝押在AI上。

然后顺着这个传闻,我找到了个更有依据更有趣的信息。今年4月,哈佛校报写过一篇长文,讲AI怎么搅动理论物理。尹希在里面说,AI给他的提速「至少100倍」,几周里写出的代码,他自己写要花10年。他还说,不相信有任何一项人类智力能力是AI无法复制的。他最后还说:我自己有没有亲手得出那个解,是次要的,只要结果能被验证。

一个站在基础科学最顶端的人,如此相信AI和使用AI,我觉得还真挺特别的。所以借此我也很想看看,现在AI到底是怎么钻进实验室、帮人类做科学研究的?

带着这份好奇,我翻了2026上半年一批论文,发现AI在高校实验室里的渗透还真挺不错了。它开始干一些人类自己都不太擅长、甚至干不了的事:读懂基因组里没人看得懂的暗区,在三天里造出上千万条蛋白数据,生成几千个「平行版本的2023年夏天」去找那个本可能更热的极端值。

这比AI写代码更值得关注。写代码是把存量知识自动化,做科学是去碰人类还不知道的东西。AI for Science(AI4S)这两年本就热闹,也为了满足自己的好奇心,我想把这半年各个学科里真实发生的事一件件讲清楚,最后再回到尹希那句话,说说我作为一个天天指挥AI干活的人,到底怎么看「我有没有亲手得出解是次要的」这种判断。

AI4S的三条主线

读了几十篇之后,我发现表面上五花八门的成果,底下其实是三条线在反复出现。

第一条,每个学科都在造自己的「基础模型」。就是那种一个模型干很多件事的玩意儿,跟GPT一个套路,只不过吃的不是文字,是基因序列、是分子结构、是天气场、是脑片子。

第二条,干湿闭环开始真落地。所谓干,指电脑里算;湿,指实验室里真做实验。以前AI算完一个方案,得人类去手动验证。现在AI直接驱动机器人做实验,自己提假设、自己跑、自己看结果再调整。

第三条,不过呢,也有些排斥AI的学者提供了些泼冷水的声音,我们也会大致聊聊。

记住这三条,下面分学科看就不会乱。

生命科学:读懂基因暗区,三天造千万数据

生命科学这半年最破圈的,是Google DeepMind的AlphaGenome(Nature,2026年1月)。

你可能听过一个数字:人类基因组里只有约2%是编码蛋白质的,剩下98%长期被叫做「暗区」。但偏偏大多数跟疾病相关的突变,就藏在这98%里。问题是这片区域太难读了,它不直接造蛋白,而是像开关一样调控别的基因什么时候开、开多大。

过去研究它,得拼好几个专用模型:看基因怎么被剪接拼接用一个,看DNA什么时候打开用一个,看它在细胞核里怎么折叠又是一个。一个任务配一把专用钥匙。AlphaGenome干的事,是把这些全塞进一个模型。它一次能读进100万个碱基对的DNA序列,以单个碱基的精度,同时预测十来种调控信号。

效果到底行不行?在26项变异效应预测的评估里,它有25项追平或超过此前各自领域最强的专用模型。这意思是,一个通才打赢了一屋子专才。

但我得替它把话说圆。这些大多还是计算预测跟实测数据比相关性,在一个常用基准上,预测值跟真实实验结果对得上六成多,剩下三成多还对不上。这说明它对单个突变的解释力还有限,离「医生拿着它直接判断这个突变到底致不致病」还有距离。它是把暗区的地图画得更全了,不等于已经能临床用。

另一个我觉得特别戳中要害的,是哈佛团队的Sequence Display(Nature Biotechnology,2026年4月)。

AI做蛋白工程这事,瓶颈从来不是模型不够聪明,而是没数据喂。蛋白的「序列长这样、活性有多强」这种配对数据,过去靠人一个个测,慢得要死。Sequence Display想了个巧办法:给每个蛋白挂一个「活性条形码」,活性越高,条形码被编辑得越多,最后靠测序按活性分桶。

结果是单次实验产出超过1000万个数据点,从产数据到训完模型,总共三天。它已经在小型基因编辑酶、tRNA合成酶这些蛋白上验证过,还真找出了能识别非天然氨基酸的合成酶变体。我喜欢这个工作,是因为它没去卷模型,而是去卷数据这个真瓶颈,反过来给那些蛋白大模型造训练集。当然,它读的活性是用条形码间接读的,不是直接测酶的反应速度,目前也只在四类蛋白上验过,能不能推广到更复杂的酶和抗体,还得看。

顺带说一句,造蛋白这块还有个有意思的趋势。英伟达和牛津在ICLR 2026上的一个工作(Proteína-Complexa),把大模型里那套「想得越久、答得越好」搬进了蛋白结合体设计,单样本生成只要15.6秒,在它自己选的14个靶点上全拿最佳。还有一篇综述(arXiv 2602.03779)把这些年生成式AI设计酶的成绩单摊开:有个被重设计的蛋白酶活性提升26倍、耐热温度抬高40度。十多年来从头设计的酶一直催化效率低到没法用,现在第一次摸到了工业上能用的门槛。这些目前主要还是计算成功率,真做实验验证偏少,但方向已经很清楚。

化学材料:让机器人自己跑实验,但成功率低得反直觉

化学这块,我挑了一个特别诚实、也特别打脸的工作来讲:A-Lab(Ceder组,arXiv 2604.11957)。

这是第一个能在严格无氧环境下,全自动合成怕空气材料的自驱动实验室。它在手套箱里自动合成加表征了352个卤化物锂尖晶石样品,覆盖19种金属。更妙的是,它把大模型显式拆成两个角色:一个专门找异常样本、提假设,另一个找规律、往外推。这样你能追溯它每一步「为什么这么决定」。

听起来很科幻对吧?但结果反直觉的地方在这儿:所谓「成功」的样本比例,也就是导电性达标、纯度高的那种,从最初75个样本的1.33%,跑到最后75个样本,**也只提升到5.33%**。

就算用上最前沿的agent做闭环优化,命中率还是停在个位数百分比。作者自己也承认,找异常那个agent主要在已经探索过的区域里精修,真正往外扩展靠的是找规律,两者协同的增益有限。我觉得这事的价值,恰恰在于它没吹,它证明的是「这条路能跑通」,而不是「我们发现了一堆好材料」。

不过话说回来,5%的命中率,跟一个有经验的材料学家用直觉去筛,到底是快还是慢、好还是差,论文没比,我们也别急着替它下结论。它了不起的地方是把整个流程自动转起来了,不是说这条路已经赢了人。

材料这边还有一条「基础模型」的线值得提。大阪大学的工作(arXiv 2603.03223),把通用原子模拟模型能算的元素,从此前的89种撑到了97种,专门补齐了镅、锔、锎这类极重的放射性元素,这些东西实验极难测、传统计算又极贵,过去基本是盲区。剑桥的MACE-POLAR-1(arXiv 2602.19411)则在1亿个分子结构上训练,让模型在带电、弱相互作用这些原本算不准的地方,精度逼近一种很贵的精确算法,蛋白和药物分子结合的精度改善约4倍。这俩都是冲着「一个模型管一大片体系」去的。

(另外有一项工作用大模型agent去优化一类多孔材料的合成,宣称结晶度大幅提升,但具体数字我没核实到,这里就不写死了。)

物理:神经网络帮量子计算「省硬件」

物理这块我最想讲哈佛的一个工作(arXiv 2604.08358),因为它直接关系到「我们到底什么时候能造出能用的量子计算机」。

量子计算最大的麻烦是错误率高,得靠纠错。纠错的核心是个叫解码器的东西,实时判断哪里出了错。传统的算法解码器有个天花板。这篇用神经网络做了个解码器,把出错率压到了一个夸张的水平,相当于连续运算一百亿步才出一次错,已经摸到实用量子计算机的门槛。

更要命的是它带来的省钱效应。它发现量子纠错有个「瀑布」现象,错误抑制比教科书公式陡得多。利用上这个,要达到同样的目标,用神经网络解码器需要的量子比特规模明显更小。换算下来,造一台量子计算机用的物理量子比特能少约40%。少四成硬件,这是真金白银。而且它判断一次只要约40微秒,已经快到能跟上实际机器的节奏。

要泼的冷水也在:这些都是模拟数据,不是真机实测;而且这种神经解码器在理论上没法保证不出某类小错误,可能存在一个「错误地板」,目前只是没观测到。

物理还有两个我觉得很费曼味的小工作。一个是宾州州立的(arXiv 2603.15853),用AI解量子方程时,发现大家长期默认的「让能量最低」这个目标,会被神经网络太强的能力坑害,算出来的能量假性偏低,物理上根本不可能。换个目标函数,从很差的起点出发,10次里9次能稳定收敛,而老办法只有2次。这是个典型的「目标定错了」的故事,提醒人别迷信默认设置。另一个是用Transformer预测核聚变装置里等离子体的行为(arXiv 2602.19110),整体吻合度很高、算一次只要0.1秒,但作者老老实实指出有两个关键参数明显更差,因为喂给模型的信号里压根不含相关信息。不是模型不行,是信息不够。

天文气候:用AI生成几千个「平行世界」

天文气候这块,有个工作我看完直接拍桌子,劳伦斯伯克利和英伟达做的(arXiv 2604.09754)。

传统气象预报想估算极端天气,靠的是跑少量几个版本再做数学外推。欧洲那套主流系统,一次就跑50个版本。这篇用AI天气模型,生成了7424个2023年夏季的情景,等于造了7424个「平行版本的那个夏天」。

结果是:全球约三分之二的陆地上,AI算出的极端高温还在传统方法能覆盖的范围内。但剩下三分之一的陆地,AI算出的极端事件完全超出了传统外推的范围。其中7.3%的陆地,那个高温就算用传统数学外推也属于「极不可能」,主要落在格陵兰、俄罗斯东部和北部、阿拉斯加,以及中国东部、华北的部分地区。

我觉得这事最反直觉的点在于:大模型在这里的科学价值,不是「预报得更准」,而是「廉价生成几千个平行现实」,把传统方法压根够不着的极端情况翻出来。这直接服务于公共安全预警分级,你得先知道最坏能坏到哪,才知道防到什么程度。当然它是事后情景模拟不是真实预报,模型本身也有偏差,作者就指出它在某些地区反而算冷了。

天气这块的「基础模型」叙事也很热。英伟达一篇工作(arXiv 2601.18111,叫ATLAS)证明了一件挺去魅的事:做顶尖的天气预报,根本不需要那些天文级定制的特殊网格,一个通用Transformer就够了,大多数变量上还稳定超过欧洲那套产品,算一步快到3.3秒。另一篇(HealDA,arXiv 2601.17636)则戳中了AI气象的软肋:过去AI只换掉了「预报」这一环,而把观测数据整理成预报起点这一步,还吊在传统方法上,这一步吃掉全球预报算力的约四成。HealDA用一个简单网络,单张H100显卡一秒就出结果,对比欧洲那套要约1小时、1800个CPU节点,而预报精度只损失不到一天的时效。

脑科学:放射科也走通了GPT式路线

脑科学我讲两个。

一个是BrainIAC(哈佛系,Nature Neuroscience,2026年2月)。它用近4.9万张脑部MRI做训练,全程自学、不用人工标注,一个模型干了7件事:估计脑龄、预测痴呆风险、检测脑肿瘤的基因突变、预测脑癌生存期等等,整体跑赢了3个传统的专用AI。

这事的意义是,医学影像AI过去是「一个病训一个模型」,BrainIAC证明放射科也能走GPT那条路:先在海量没标注的片子上自学通用本领,再用很少的标注微调出各种诊断能力。而且越是数据稀缺、任务越难,它相对专用模型的优势越大。代码和模型都开放了。它具体的准确率数字Nature正文在墙后我没拿到,这里就不编百分比了。

另一个更哲学,让我想了很久(Nature Machine Intelligence,2026年2月)。15名脑子里植入了电极的患者听语音时,研究者记录他们听觉皮层的反应,再去比对一个语音识别AI内部各层的活动。结果是脑区和AI模型的层几乎一一对应,从声音、到音节、到词、到意思,人脑和语音AI走的是同一条递进的处理阶梯。

过去我们说「AI能预测脑活动」,那是弱对应,可能只是碰巧。这篇把它推到了强对应:连内部一层层的结构都平行了。它暗示生物和人工系统,在「把声音变成意义」这件事上,可能用了相似的策略。

这个方向值得盯,但我得提醒一句:层级对应,也可能只是因为「把声音变成意义」这件事本来就只有这一条阶梯可走,未必是两套系统真的想到一块去了。再加上样本只有15人,用的也是特定的AI,这是相关性证据,不等于人脑真就用这套机制。免责声明放前面,我还是想说,这个方向比任何一篇刷榜论文都更让我好奇。

也有清醒的声音:AI能生成,还不能替你负责

这半年也有几个反共识的发现,我觉得反而让人更踏实。有研究拿两家不同厂商的前沿模型去生成科研新假设,发现输出相似度高得惊人,你问3家还是问10家,结果几乎一样,创新的多样性被预训练和对齐压扁了。另一边,一个只有35亿参数的小模型,微调后控制原子级显微镜,命令准确率干到99.3%,反而超过了OpenAI的o4-mini,因为大模型输出带概率性,在纳米尺度一出错就是不可逆的实验失败,精密科学里确定性的小模型反而更靠谱。还有篇综述算了笔账:现在有系统能2.3小时产一篇论文,但生成能力一直在跑赢验证能力,AI产得越来越快,却没法证明自己对、有意义。这些声音不扫兴,它们一致指向同一句话:AI可以把生成做到无限快,但验证和负责这一端,目前还得人来。

写在最后

把这半年看完,作为一个天天指挥AI做产品的人,我想说说自己的判断。

我做App的时候,AI是我的工具。它写代码写得比我快,但出了bug,是我对着报错改、是我决定这功能要不要、是我去App Store担责。AI再强,它都站在「我」这个判断主体的下游。

科学这事,本来也该是这样。但我看到的趋势是,AI正在从科研的工具,往科研的流程本身挪。自驱动实验室自己提假设、自己跑、自己改;AI科学家从选题到写论文一条龙。挪到一定程度,那个负责判断的主体就模糊了:到底是谁在做科学?

我的看法是,这条边界不能模糊。而且巧的是,这半年最扎实的工作恰恰都没模糊它。A-Lab老老实实报5.33%的成功率;那个小模型靠确定性赢过大模型;路线图综述直接说瓶颈是「为真实性负责」。它们共同指向一句话:AI可以无限扩张「生成」,但「验证」和「负责」这一端,目前还非人类不可,短期也看不到松动。

所以回到尹希那句话。他说自己有没有亲手得出解是次要的,只要结果能被验证,我其实挺认同。解越来越多地交给AI去生成,这是大好事,它意味着人类能问的问题、能碰的边界,一下子被推远了。剩下还得人站着的岗,是「验证」和「负责」这一端。但我一点都不觉得这是坏消息。反过来看,这恰恰是把人从「测一千万条数据」「算几千个平行宇宙」这种力气活里解放出来,让我们专心去干那件最像人的事:判断哪个问题值得问,以及为答案负责。

我得说句实话:这一堆基础模型、自驱动实验室,到2026年中真正进了科学家日常的还不多,大部分论文还停在概念验证。但方向我是真信。过去要十年的事现在几周做完,这种提速一旦铺开,基础科学会以我们还没适应的节奏往前冲。可控核聚变、室温超导、阿尔茨海默的药这些卡了几十年的硬骨头,第一次有了被批量啃动的可能。

所以比起担心,我更多是兴奋和期待。AI钻进实验室这件事,我赌它是这十年里对人类最重要的变化之一。如果加盟传闻属实,尹希把整个职业生涯押上去,我挺理解他。换我站在他那个位置,看到AI能把十年压成几周,可能也会做一样的选择。

喜欢(0)

上一篇

写代码可以 Vibe Coding 了: 为什么办公还不能 Vibe Officing

写代码可以 Vibe Coding 了: 为什么办公还不能 Vibe Officing

下一篇

CVPR 2026:英伟达特斯拉 Waymo 一块听中国公司讲物理 AI

CVPR 2026:英伟达特斯拉 Waymo 一块听中国公司讲物理 AI
猜你喜欢