高通推出骁龙START计划 推动个人AI终端加速落地
2026-06-20 3361915
2026-06-15 0
原创 玉澄 2026-06-14 14:32 新加坡

“最短在 12 个月内,我认为模型届时已经消化吸收了 Harness 的很大一部分。它会被上游化到模型中,而红利将会转移到其他地方。”


编辑 | 玉澄
“最短在 12 个月内,我认为模型届时已经消化吸收了 Harness 的很大一部分。它会被上游化到模型中,而红利将会转移到其他地方。”
“这些天我花了太多时间在思考 AI 编程上。我认为其他那些具有可验证性的领域,像数学、金融和科学,显然也是你会迅速看到成果的领域。”
“对谷歌来说,成功可能并不意味着‘最大化用户在产品前的眼球停留时间’,而是‘最大化客户的成果’,让他们能做自己想做的事,然后去享受生活、成为他们想成为的人。”
上个月 2026 谷歌 I/O 大会才刚结束,这个月红杉资本 Sequoia Capital 播客便邀请 Google AI Studio 和 Gemini API 的负责人Logan Kilpatrick,就 Agentic AI、AI Coding 和世界模型等话题来了一场深度对谈。
这次 Logan 也是坦诚地分享了很多自己的独到见解。比如,最短在 1 年内,Harness 的很大一部分会成为模型的原生能力,到时候应用层公司再折腾 Harness 就没什么收益了。
而且,他提出当下及未来需要类似“Harness Bench(框架基准测试)”这样的东西,“它能实际衡量所有这些不同的模型在适应所有这些不同Harness方面的表现如何”。
对于 AI Coding,他认为现在的 AI 编程水平,有点近似窄域超智能。AGI 可能不会一步到位,而是会先出现一堆“参差不齐的垂直超智能”,比如像数学、金融、科学这些有明确可验证标准的领域,会率先出现超过人类水平的窄域超级智能。
AI 编程能力的提升,也让他重新设定了自己产品开发的野心水平,他的原话是“我不能只做这个东西的 MVP,我实际上需要再往前走 10 步,因为技术允许我这么做”。
同时,因为 Vibe Coding 的存在,谷歌 AI Studio 用户在一周多的时间内就开发了 35 万个安卓应用,其中很多是个人应用。他认为,“也许生成式用户界面还离得比较远,但现在为了解决你个人问题而构建软件的想法是非常现实的”。
在世界模型上,他认为现在有一批很有意思的初创公司正在弄清楚世界模型的脚手架是什么,让世界模型在真实场景中落地。对于谷歌最新推出的 Omni,他说,视频编辑是该模型当下最好的应用场景,也是其迭代的第一个轮次。他很喜欢 Omni,因为“它没有改变我,它改变的是周围其他一堆不属于我的部分”。
此外,他还透露了一个反行业预测的事实,那就是根据谷歌自有数据,他们发现 AI 并没蚕食搜索业务,反而带来了令人难以置信的正向增长,人们搜索得更多了,Agent 也会进行大量搜索。原以为是“负和博弈”,结果却是“正和”推动。
对谈中,Logan 还讲到两件很有意思的事情。一个是他自己用 AI Studio 做的第一个安卓应用,居然是用来打理后院植物的园艺工具。另一个是,在 AI Studio 的开发者生态中,最初有 20% 的用户在开发游戏,而当下有 20% 的用户是在开发金融产品,可以看出人类最有热情的还是娱乐和财富。
以下为这场播客的主要内容,enjoy:
现在谷歌所有产品的主线是 Antigravity AgentHarness
主持人:Sundar(谷歌 CEO) 在 I/O 大会的开幕演讲中,将当前称为“Agentic Gemini 时代”。对谷歌来说,Agentic AI 究竟意味着什么?
Logan:我认为现在的 Gemini 3.5 的时代,我们已经进入了Agentic Coding 或智能体产品,以及全员智能体的时代。我认为对我们来说,我们在 I/O 大会上也正式宣布了这一点,这个智能体层是由 Antigravity AgentHarness驱动的,这是谷歌一条贯穿始终的新主线,它将我们所有的产品连接在一起,成为它们现在的基础。
从历史上看,在 Gemini 出现之前,谷歌那大概不到一百个产品线之间其实并没有一条统一的主线。后来我们有了 Gemini,它成为了这条主线,现在所有产品都在以某种方式使用 Gemini。而现在,随着所有产品都在进行重构,逐步转变为“原生智能体产品”,开始真正代表用户采取行动并帮助他们完成工作,这一点在 Antigravity 上也在成为现实。你可以看到这条全新的主线正在浮现,我认为这真的非常有趣。
主持人:抱歉,帮我理清一下,Antigravity 是指那个 IDE 对吧?还是指它的名字或概念?
Logan:没错,Antigravity包含了很多东西,我认为这再次为我们带来了一个机遇。你有一个核心的 IDE,如果你想要网页端的“智能体优先”体验,它也提供。你还可以使用 CLI 和 SDK 。但实际上,我不知道我们之前是否这样界定过它,它本质上是我们构建的一个庞大的生态系统,旨在随时随地满足开发者的需求。因此,如果你愿意,你完全可以通过 Gemini API 来使用它,如果你需要一个托管智能体,你不需要做任何底层的架构工作。
而最有趣的一点在于,它不仅仅是Antigravity这一套东西的生态系统,它实际上也在直接驱动谷歌的其他所有产品。也就是说,相同的底层框架也在为其他所有谷歌产品提供动力。未来,Antigravity将驱动搜索、Gemini 应用、云端以及 AI Studio 中的一大堆智能体功能,这非常令人兴奋。
主持人:我明白了。所以过去是 Gemini API,语言模型是一条主线,决定了 AI 如何融入每个谷歌产品中。而现在,不仅仅是 API,还有这个 Coding Harness 。它被应用在这些产品中,因此是 Coding Agent 本身在推动产品中具备更多的智能体属性。
Logan:是的,这个描述很贴切。而且我认为从更通用的角度来看,它本质上就是 AgentHarness 。事实证明,Coding Harness除了在编写代码方面表现极佳之外,也完全可以作为通用的 AgentHarness 。
主持人:那 AgentHarness 和Coding Harness是同义词吗,还是有区别?
Logan:这中间绝对是有细微差别的。我认为通过针对特定场景进行专门化定制,你可以压榨出更多的优化空间。事实上你也能看到这一点:从技术上讲,AI Studio 所使用的 AgentHarness 针对 Vibe Coding 的使用场景进行了稍微的定制;而 Gemini 应用使用智能体框架的方式,则针对那种面向消费者、24 小时全天候在线的智能体进行了定制。因此,你拥有一个基础 Harness ,其中大概 80% 的内容是相同的,然后你再针对编程或任何具体的应用场景进行专门的定制。
智能体化不仅没有蚕食谷歌搜索,反而推动了业务增长
主持人:很有意思。你是怎么看待对现有业务的“蚕食”(cannibalization)的?特别是现在你们正在更加激进地投入到 Agentic 中。
因为我可以预见到,例如,如果你做的只是搜索或摘要,那么对业务蚕食的担忧可能没那么大;但如果 AI 实际上在帮我浏览邮件并替我回复,那我甚至都不需要亲自去打开邮箱了。因此我可以想象,由于拥有了更强大的智能体能力,用户在你们产品上停留的注意力时长(eyeball hours)实际上会变少。
这种看法客观吗?或者你是怎么看待这种蚕食效应的?
Logan:是的,这很有意思。我的一个观察是,在当前 AI 时代的初期,所有人都理当然地认为,AI 能够直接为你解答问题对于搜索业务来说将是一场“负和博弈”。但实际上,最终发生的结果是,它对搜索业务带来了令人难以置信的“正和”推动。人们搜索得更多了,做的事情也更多了。
(注:负和博弈是指参与者在冲突中总收益为负数的博弈模式,即双方或多方都可能遭受损失,甚至胜者收益低于败者损失。
正和博弈是指通过合作或创新,使参与各方的利益总和增加,实现双赢或多赢的博弈模式。)
主持人:而且智能体也在进行搜索。
Logan:没错!智能体也在搜索。同样,在人类搜索量增加的同时,智能体做的事情也变多了,从而诞生了一个全新的市场。因此我认为,虽然世界上的人类总时间显然是有限的,但从我目前对这一切发展态势的早期感受来看,从生态系统的价值创造角度来说,它确实是非常积极的正和博弈。
至于人类行为层面最终会如何演变,我认为未来 1 到 2 年内还算相对清晰,但在 3 到 5 年后,当技术进一步提升、产品形态可能变得大不相同时,就很难说清楚了。但归根结底,这就是产品的成功所在。
我们经常和 Demis(谷歌DeepMind CEO)聊天,构建技术的目的就是为了让它能够走出去替你完成工作。对谷歌来说,成功可能并不意味着“最大化用户在产品前的眼球停留时间”,而是“最大化客户的成果”,让他们能做自己想做的事,然后去享受生活、做他们想做的人。所以我感觉,你大概会看到我们走向一条最大化客户成果、而不是最大化眼球停留时间的道路。
主持人:是的,我脑子里一直冒出“智能体增长”这个词。因为对我来说,我在私人时间里大量使用编程智能体,我直接让智能体帮我做所有的架构选择。我会说“我不在乎你推荐哪种数据库,你决定就行”。
Logan:哈哈,明白。
主持人:我之所以问这个,是因为既然这在如今的编程中已经成为了现实,我可以想象,它未来大概会普遍适用于很多事情,比如以后的购物。那你认为这将如何改变广告的运作方式,以及聚合平台(aggregators)捕获价值的方式?
Logan:这感觉是一个非常类似的趋势。虽然不能说完全一样,但这些事情在很大程度上互为映射。比如 SEO(搜索引擎优化)的运作方式,我认为它与,比如 GEO(生成式引擎优化)之类的叫法直接相关。因此,这些事物之间确实存在着高度的相关性。我的猜测是,它的变革幅度可能并没有我们现在想象的那么激进,仅仅是因为这些事物是在彼此的基础上叠加并复合发展的。
谷歌全域产品智能体化程度还处于“爬”的阶段,但 Gemini 和 Antigravity 处于“走”的阶段
主持人:如果让你用“爬、走、跑”来对智能体化程度进行分级,目前谷歌系列产品的智能体化处于什么阶段?
Logan:这是一个非常棒的问题。现在绝对还处于“爬”的阶段。我认为这在一定程度上是因为谷歌固有的产品张力,你拥有几十个用户量超过十亿级别的庞大产品线。
因此,尽管我们确实有一些更接近 Labs 的体验,在那里你可能已经接近“走”甚至“跑”的阶段了,但就目前绝大多数的产品体验而言,绝对更接近“爬”。
我认为这正是我们作为开发被大众广泛使用的产品的管理责任所在。因为我觉得长尾客户们并没有完全准备好让 AI 直接跑起来替他们处理所有事情,他们依然希望自己坐在驾驶座上,谨慎地迈出第一步。
谷歌团队,尤其是搜索团队,或许就是这方面最典型的例子。他们在推进这项技术时承担着巨大的责任,必须以一种能够带领用户共同前进的方式来做,而不是直接颠覆他们与互联网互动、以及他们与产品建立联系的固有方式。
(注:产品张力是指产品在满足用户需求的同时,保持合理的成本和性能平衡。
长尾客户是指数量庞大但单个贡献度较低、需求分散且个性化的客户群体,他们在整体市场中虽单独价值有限,但累积效应显著。)
主持人:你认为哪些产品目前最接近“走”的阶段?
Logan:好问题。我认为Gemini 应用绝对是最接近“走”的阶段。对于 Spark,我认为拥有一个 24/7 全天候在线的智能体,能够真正潜在地代表你执行一连串的操作,绝对是目前最前沿的应用场景之一。
此外,我认为Antigravity 是另一个例子,在其中你可以拥有自主的编程智能体,比如重构操作系统、处理成千上万亿的 token,并代表你花掉数千美元。
我认为这些更偏向前沿探索,事实上它们同时存在于 GDM(谷歌 DeepMind)和工程团队的视角中。因此,我认为 GDM 正在以一种非常前沿的视角来看待这个问题,而谷歌的其他产品则是在更渐进地向那个方向靠拢,这在我看来是非常合乎情理的。
长时程智能体非常重要,编程模型是谷歌全业务的催化剂
主持人:明白。你认为谷歌最终会拥有 1 个、2 个还是 3 个用于交互 AI 的产品入口,还是会拥有成千上万个?
Logan:这很难说。我认为这很大程度上取决于人类消费产品的方式。我的感觉是,“模块化”和“产品专业化”是有其美妙之处的。如果你最终得到的是一个替你包揽一切的产品,那么在默认状态下,使用这个版本的产品本身就需要付出更多的精力。当然,也许有人能把某种真正魔幻的体验整合在一起,打破这个定律。
但我认为,对于绝大多数的长尾用户来说,要让一个通用型产品去准确完成他们想做的那件具体事情,他们最终不得不耗费更多的心理能量和时间。相比之下,有些东西简单点反而很好,比如我点击日历应用,它就只显示我的日历,我不需要操心或处理任何其他事情。
主持人:这就是为什么幻灯片存在了这么长时间的独到见解(hot take),你就是希望你想要的那条信息刚好出现在完全相同的地方。而且我认为,我们人类其实非常习惯于这种模式;相比之下,生成式界面的想法听起来固然很酷,但对我们的大脑来说,这难道不是更多的认知负荷吗?
Logan:在某些情况下绝对是的。同样,世界上有很多极其聪明的人,所以也许有人会找到一种让它感觉更自然的交互体验。但对我来说,现在预测的话,成千上万个或许太极端了,我猜测它看起来会更像是更多的产品去深耕不同的细分领域。而另一个层面的答案是,我不知道这对谷歌意味着什么,但对于整个生态系统来说,它显然意味着会涌现出多得多的产品,这非常令人兴奋。至于谷歌最终会在战略上如何抉择,比如我们的客户是希望面对 10,000 个产品,还是只保留 3 个会更好,这将取决于我们自身的战略决策。
主持人:这完全说得通。当我与企业界的公司交流时,他们会说,虽然所有人都在谈论 Agentic AI,但他们真正看到智能体发挥作用的唯一地方就只有“编程智能体”。你同意还是反对这个观点?
Logan:好的,我认为这取决于你对“发挥作用”的衡量标准是什么,这其中有很大的微妙之处。如果你真的试图将非常复杂的任务完全分派给某些领域,而这些领域的模型质量实际上还没有跨越那道门槛,那么这确实是事实,它并不能完美解决问题。但这正是我想、也希望能够去量化的事情。一个很好的例子是 OpenRouter,它在衡量总体的 token 消耗情况。因此你可以看到这些趋势随着时间推移是如何展现的,比如现在的世界比起一年前融入了多少智能。
与此同时,我真正有兴趣去衡量的是:一个普通智能体运行或一个普通任务的实际持续时间有多长。我虽然不认为他们公开了这部分数据,但我感觉他们肯定掌握着非常有趣的数据。当然肯定还有其他平台也有,因为我确实认为,当你看到这些新模型能力落地或新模型发布时,数据会迎来激增。尽管现在的曲线可能整体还很低,但你已经能看到长期运行任务激增的早期迹象了。所有的模型实验室都在谈论“我们发布了这款新模型,它完成了长达三天的自主工作”之类的话。虽然那是极端情况,但在实际应用中,你会看到这种能力正在非常迅速地向上渗透,这真的很有趣。
因此,即便企业在编程之外还没有深刻感受到它,他们也即将在今年感受到,因为大量其他应用场景的体验同样在迎来大幅提升。
主持人:从谷歌 DeepMind(GDM)的角度来看,你认为“长时程智能体”是一个至关重要的 KPI 吗?它是最核心的 KPI 吗?
Logan:它绝对非常重要。我认为对于 DeepMind 来说,我们正在做很多事情,我们待会儿可以多聊聊,我们有一个由不同押注组成的庞大组合。长期运行的智能体显然非常重要。同时,我认为在这一进程中,专门的编程智能体也举足轻重。显然,如果你拥有一个卓越的编程模型,它会成为你业务中其他所有部分的催化剂。因此,确保我们拥有这样的模型,对我们来说绝对是重中之重。
垂直超智能前瞻:将在编程、数学、金融、科学等“可验证性”领域率先实现
主持人:你过去曾说过,如果你能拥有一个可以通过代码构建任何东西的系统,人类就无法在同一水平上竞争,那就是窄域超智能(narrow super intelligence)。你认为我们已经达到那个点了吗?
Logan:编程现在实在太厉害了,确实有点像窄域超智能。我花了很多时间让自己去适应这个事实,因为显然构建 AGI(通用人工智能)超级重要也很有趣,但如果构建 AGI 削弱了技术目前现有能力的影响力,我认为这实际上是一种不太好的折中。所以我总是试图在脑海中同时兼顾这两件事:我们需要构建通用技术,但显然拥有这个东西是如此有影响力,而且感觉它并没有夺走人类开发者的空间,这可以说是最好的积极结果之一。
它真的感觉像是对人类开发者能力的加速。我作为一个人类开发者,感觉自己在世界上有了更多的自主权。我觉得我可以挑战更有野心的课题。我以前经常琢磨一些想法,但它们有点遥不可及。我就会想,“啊,如果能实现该多好。”而现在我遇到了相反的问题,我在琢磨一个想法时会想,“大概可以把它做得更有野心。”这确实增加了不同层面的责任,或者实际上是不同层面的负担,因为我会觉得“哦,我不能只做这个东西的 MVP(最小可行产品),我实际上需要再往前走 10 步,因为技术允许我这么做”。重新设定我的野心水平,我认为这也是我花了很多时间思考的事情。
但这也会发生在其他这些垂直的超级智能领域,这将很有趣。感觉在我们完全解决问题之前,我们会得到一堆这样的领域,这有点像是参差不齐的超级智能(jagged super intelligence),我想这就是我们最终会得到的。
主持人:你认为接下来我们会在哪些垂直领域实现超级智能?
Logan:这是一个好问题。这些天我花了很多时间、甚至可能是太多时间在思考编程上。所以让我思考一下其他领域。我认为其中的一部分是,那些具有更好可验证性的领域,显然是你会更迅速看到成果的领域。所以像数学和金融,实际上科学也可能是一个非常有趣的领域。看到其中一些具有一定可验证性的领域真正开始腾飞,那将是非常迷人的。这会很酷。
而且我也认为,在关于 AI 究竟对世界产生什么影响的更广泛舆论中,一件重要的事情是,你几乎希望在技术见效的先后顺序中就是这样的。你希望一上来就尽可能早地发生很多这种对世界真正有益、有影响力的积极事情,以便大家理解这项技术的潜在积极影响。所以我认为科学可能会是一个非常有趣的领域。当然,现在数学证明之类的事情正在发生,但我不是数学家,所以这有点超出我的认知范围。
主持人:我前几天看到一条很棒的推文:“为什么埃尔德什(Erdős)有这么多问题?”
Logan:没错。那条很好。我喜欢那个。那是个印在 T 恤上的好素材。太搞笑了。
人们当下在构建什么:金融和游戏产品成为开发主流
主持人:好的,但说到 Twitter,我在来这之前翻了你的 Twitter,所以我要向你读一段你发过的推文。Twitter 的好处是它公开记录了你所有的预测。
Logan:我得去开启那个推文自动删除的功能了,管它叫什么。
主持人:去年 10 月你发推说:“到 2025 年底,每个人都将能够通过 Vibe Coding 来制作电子游戏。”
Logan:是的。
主持人:这最后成真了吗?
Logan:感觉很接近了。我的意思是,显然不是 AAA 级大作,你现在还做不出下一个《使命召唤》或《侠盗猎车手》(GTA)。但我觉得它比以往任何时候都更接近了。
实际上,关于电子游戏很多有趣的一点是,你最终需要构建很多其他类似模型的东西。我们刚才在镜头外还聊到,Three.js 就是一个很好的例子。Three.js让很多以前不可能的事情变成了可能,但仍然存在很多编程智能体无法解决的粗糙边缘。因此你需要像精灵图生成(sprite generation)之类的东西,而模型在原生做这些方面并不是很好。所以你需要一些编排层和工具链来实现它。还有一堆其他类似的事情,它们是游戏体验的核心,需要高度的可靠性。我觉得这触手可及,但实际上需要大量的“产品脚手架”工作,才能创造出可复用、可重玩、并具有一定深度且需要一点审美品位的体验。
主持人:你有看到人们在 AI Studio 以及你们拥有的其他开发者平台上制作很多电子游戏吗?
Logan:有的。这实际上是基于我们对早期数据的观察。当时在 AI Studio 中,大约有 20% 的用户制作的应用实际上是游戏,人们试图构建游戏。
主持人:这是最受欢迎的类别吗?
Logan:它现在不是最受欢迎的类别了。因为我认为生态系统已经发生了变化,用户群体也发生了变化,但还是有很多游戏。
主持人:那最受欢迎的类别是什么?
Logan:我记得大概有 20% 是与金融相关的。
主持人:哇,20%。人们就那么喜欢金钱吗?
Logan:我认为它主要与加密货币(crypto)有关,实际上,人们在金融领域做了很多事情,还有很多个人生产力工具,以及大量的生成式媒体内容,因为显然谷歌的生成式媒体系列产品非常惊艳。
主持人:是的,做得很棒。
Logan:但我也认为,GDM(谷歌 DeepMind)的 Demis 非常在乎游戏,他最初就是因为游戏才开始从事 AI 工作的。所以我想我们在这一块会有一些有趣的尝试。实际上,我们的Kaggle 团队(我们在 GDM 中做的大量 AI 基准测试工作)正在与 GDM 合作构建这个游戏竞技场,这是我们测试通向 AGI 进展的一种方式,把游戏作为一种 Agent 指标,这再次深深植根于 GDM 的历史中。
(注:Kaggle成立于2010年4月,总部位于美国旧金山,是全球领先的数据科学与人工智能竞赛平台。2017年,Kaggle被Google母公司Alphabet正式收购,成为其旗下专注于推动数据科学创新的子公司。)
主持人:那你认为我们距离“街上随便拉来一个有绝妙想法的素人,就能通过‘氛围编码’做出一个非常好玩的游戏”还有多远?
Logan:我想说是今年。我真的认为模型能力让这成为了可能。这就是我在产品端感到兴奋的地方。同样,我们刚才在镜头外也聊到了这个生态系统中的初创公司,因为感觉这是可行的。这不像是模型质量上的差距。这更像是一个知道如何构建一款伟大游戏的人,在以正确的方式把脚手架搭建起来以使之成为可能。我认为现在就已经有人在做这件事了。所以,其中一部分是发现度和认知度的问题,人们甚至不知道自己可以这么做。另一部分可能只是某些特定类别的模型能力稍微差了一点点,而我们距离跨越这个鸿沟可能只有几周或几个月的时间,然后它就会对大多数人奏效。
初创公司的攻坚方向:弄清世界模型落地的脚手架
主持人:这是一个很好的过渡,接下来我想问问你关于“世界模型 vs 游戏引擎”的看法。你认为 Vibe Codeing 出来的电子游戏,更可能是基于“游戏引擎 + 编码智能体”,还是更可能基于“世界模型”?
Logan:是的,我认为最终会发生的是“世界模型”的定义会变得模糊,这我们在谈到 Omni 时应该聊聊。而且我认为,编码智能体看起来仍会像某种世界模型类型的系统。但你实际上需要让世界模型对真实事物有用,你需要“脚手架”。所以,我认为现在又有一批很有意思的初创公司在做这件事,去弄清楚世界模型的脚手架是什么,这样你才能把它们从非常开放的世界模型固有设计、非常开放的空间中拉出来,以一种切合实际的方式落地,使其基于某个可以循环使用的应用场景。也许有人能搞懂世界模型的脚手架,从而让游戏成为可能。
但以目前世界模型的固有特质来看,我认为它实际上并不适合目前形式的游戏。不过进展真的很疯狂,所以谁知道呢,也许两年后新版本就能做到了。但至少在短期内,我认为从游戏的角度来看,“编码智能体 + 某种游戏引擎”会让你看到更多的超额收益(alpha)。
主持人:有道理。你提到世界模型的定义很模糊,我们能详细拆解一下吗?
Logan:好的。我的意思是,Omni 就是一个例子。我们在 I/O 大会上发布了它。你可以输入任何内容,生成任何输出。我认为 Demis 向世界介绍它时,理所当然地把它框定为一个世界模型,就是因为技术上它对世界有极高的理解。但从架构的角度来看,它确实与过去的做法不同。我认为这是积极的,因为它越来越接近某些可能更具扩展性的方式。而从历史上看,它一直是非常不可扩展的,运行传统的在线世界模型非常非常昂贵。
主持人:比如像 Genie 那样。
Logan:对。
主持人:好的。所以如果你把传统的世界模型想象成几乎是一个“动作条件视频模型(action conditioned video model)”,那么现在当我们需要说“世界模型”时,我们实际指的是一个对世界有一定理解的模型,而不是严格技术意义上的动作条件视频模型。
Logan:是的。但有趣的是,这也是对我而言界限模糊的地方,它可以处理很多你所描述的相同应用场景,或者在视觉上用完全相同的世界模型来创建,我认为这是最让我感兴趣的地方。所以,我确实觉得这种世界模型、视频模型的事情将会以一种与之前显而易见的方式不同的方式发生改变和演变。
主持人:那它在底层是如何运作的?在你可以分享的范围内,它是 Gemini 加上视频模型吗?还是完全不同的东西?
Logan:它是一个单一的模型。我认为这是重要的一点。这实际上是最初设想的一部分,因为过去你必须训练八个不同的模型来做所有这些事情。历来都是这样的:你有一个基于基础 Gemini 模型的文本模型;你有音频模型;你有通过 Lyria 做的音乐模型;你有 Nano、Banana 模型;你有 Veo 视频模型;我们还有一整套音频模型。如果只要一个单一的模型就能做所有这些事情,那对我们和我们的客户来说就太棒了。所以这是一种让它成为可能的新架构。它并不是把请求路由到一堆不同的模型,这像我们之前能想象到的。
实际上我们以前也可以做类似的事情,搞一个 Gemini Omni 模型,但这个是一个真正的单体 Omni 模型。而且它是从目前效果最好的应用场景开始的,这也是为什么它是目前唯一可用的版本,也就是这种视频编辑能力。从技术上讲,它在其他功能上也能运转,只是质量还不够完美,还没达到业界顶尖水平。所以我们还没有把它推出来。这也只是 Omni 模型转动的第一个轮次,是 Omni Flash 模型的第一个迭代版本。所以我们将会有能力强大得多的版本,这会非常令人兴奋。
主持人:所以我们可以编辑这个布景,让它看起来像我们正在……
Logan:没错,是的,我想要这个。我们刚才在镜头外还聊过,我们应该在片头做这个,因为我觉得这只是让所有这些事情变得更有能力,而且我看到了很多极其微妙的细节,这让我非常欣赏它展现出的对世界的理解。我之前在做一场演讲,和我的朋友 Tulsi 一起在舞台上,她领导着模型团队,我不知道你以前有没有邀请过她,但她棒极了。
主持人:我很喜欢 Tulsi。
Logan:在那场演讲中,我向观众提到要编辑这段视频,他们真的当场拍照并用 Omni 进行实时编辑。结果有一只狗走上了舞台。而在编辑后的版本中,另一位嘉宾低头看着,看到了那只狗,然后轻笑了一下。而这正发生在我正对着某些 AI 废话侃侃而谈的时候……
主持人:顺着你的笑话笑?
Logan:哈哈,不是因为我的笑话。他们是因为那只狗走上来才笑的。它跳到了我的大腿上,我好像注意到了这只狗,继续说着话,还在抚摸它之类的。要把这些极其微妙的细节做好需要太多的细节处理,而模型完美地搞定了,这非常有趣。我目前仍在大脑中吸收和消化这意味着什么,比如对于我们制作内容的方式以及所有其他事情的影响。
主持人:这太有意思了。是的,我是生成式媒体及其未来的最大看涨者。我的意思是,我们为自己的播客考虑过的事情之一就是,视觉效果和内容本身一样重要,这是肯定的。这是你起初吸引人们注意的方式,对吧?所以,好的,我很兴奋,我很期待体验 Omni。
Logan:我也很期待。我认为,作为一个内容创作者,你可能也会有这种感觉,但从历史上看,就我自己而言,我从来不用 AI 来制作我产出的任何内容。全都是我自己的话,始终是我的声音,也始终是我的形象和照片出现。因为我觉得这里面有太多的潜力和真实性。所以我更希望那是我自己,而不是某个 AI 版的我。
而我之所以这么喜欢 Omni,是因为它没有改变我,它改变的是周围其他一堆不属于我的部分。比如我并没有选择我们周围的这些布景,或者这个咖啡桌。所以我们说的话可以保持不变,而你可以改变这些非个人的部分,用它们做一些更有趣的事情,我认为这真的非常非常酷。这感觉就像是我希望生成式媒体应该有的版本,而不是一堆 AI 数字人分身。
主持人:对,没有“水果岛”视频。
(注:“水果岛”视频(或称“水果爱情岛”,英文为Fruit Love Island)是指2026年3月在海外短视频平台(如TikTok和YouTube)上爆火的一种人工智能(AI)生成的低俗抓马短剧。这种视频的核心特点是将各类常见的水果(如芒果、草莓、香蕉、橘子等)进行拟人化,让它们像真人一样谈恋爱、出轨、争吵和复仇。)
Logan:没错。真的是这样,它保留了原创内容,保留了这个人,人的主体性还在那里,只是形式不同并且被放大了。超级有意思。
主持人:好的,我很期待体验它。
Logan:是的,我们录完这个之后应该马上发几个提示词试试。
AI Studio 数据:一周多时间产出 35 万款安卓应用,个人开发需求爆发
主持人:不过我并不介意水果视频,我很乐意见到一个两者兼包的世界。在编程方面,你们在 AI Studio 中推出了让人们可以 Vibe Coding Android 应用的功能。我很想听听目前进展如何,以及你们计划将它带向何方。
Logan:是的,这超级令人兴奋。我认为对于 AI Studio 来说,其中一个具有战略意义的事情,这实际上是基于来自生态系统、开发者以及其他人的大量反馈,就是谷歌有太多的产品。在你构建一家初创公司或将创意付诸实践的所有不同旅程中,有太多不同的方式会触及谷歌。
所以我们有一个首要原则:我们如何把这些东西引入到 AI Studio 中,让你在不需要穿梭于谷歌九个不同的 UI 之间的情况下,就能接触到谷歌生态系统的其他部分。Android 就是一个绝佳的例子,不仅如此,它还赋予了那些原本不会开发 Android 应用的人这种能力。我真的在 AI Studio 里构建了我的第一个 Android 应用,看到这个太酷了。
主持人:它是什么应用?
Logan:我做了一个关于植物的。当时我正在我的后院种树。
主持人:哦,像是一个园艺应用。那很好。
Logan:是。所以当时就是一边试用,一边玩一玩这个园艺应用。目前我还没有想到我想为移动应用做出来的突破性创意,但我会想出点什么,然后去应用商店里竞争一下。
主持人:你在应用商店里有看到过任何真正火起来的“氛围编码”应用吗?
Logan:这是一个好问题。去看一些分析实际上会很有趣。我不知道,我敢肯定它加速了应用商店里的很多东西,但我个人不认识任何做成这样的人。而且我本来也打算说一个观察:如果我没记错的话,我们今天早上看数据,自上周以来在 AI Studio 中已经构建了大约 350000 个 Android 应用,这太疯狂了。而且令人兴奋的是,这 350000 个应用可能是以前根本没人会去构建的。这其中很多也是个人应用。所以这就是我认为的地方,也许生成式用户界面(GenUI)还离得比较远,但现在为了解决你个人问题而构建软件的想法是非常现实的,而且人们正在这样做。这是许多这些产品最常见的应用场景之一。能够解锁手机的许多原生能力,我认为这也非常有趣,因为你在不同的地方有太多的上下文。所以我对这种机会感到非常兴奋,感觉 Android 正在成为创造者的平台。
主持人:鉴于现在的网页端已经如此强大,它是一个应用还是仅仅网页端,这还重要吗?
Logan:是的,看到这个格局的发展也很有意思。网页端确实很强大。但操作系统拥有某些你就是无法解锁的东西,比如许多原生的丰富性,这些丰富性实际上能让体验感觉丰富得多。其实我常在短信体验上想到这一点,所有主要操作系统中的短信体验,对我来说都比我用过的任何 AI 聊天应用要丰富得多。如果我能在任何我使用的短信应用里直接和 AI 聊天,我会比不得不去下载另一个应用要高兴得多。因为我认为下层操作系统已经培养了我们的使用习惯。
行业趋势预判:最短 1 年内,大模型将吞噬 Agent Harness 框架红利
主持人:是的,有道理。好,我想问关于“模型吞噬 Harness ”或者“模型吞噬脚手架(scaffolding)”的问题。你有什么看法?
Logan:是的,我认为这是真的。我认为其中的一部分原因在于,我们历来所认为的“模型”现在已经不再是那个模型了。比如我想在两年前大语言模型流行的时候,模型实际上仅仅是一组权重(weights)。它是一组权重,并且当时的核心关注点是如何尽可能简单地把 token 送进去并把 token 拿出来。我认为我们只是在一步一步地推进,我们仍然叫它模型,仍然叫它 Gemini 3.5、GPT 几或者 Claude 几,但它实际上不再仅仅是权重了。它现在是一个围绕权重构建的、不断扩展和蔓延的完整系统,正是这个系统实现了很多这类下一代体验,从智能体工具调用到各种托管工具、搜索、代码执行等。你知道,现在的模型是在容器中被拉起来的,并且带有智能体Harness之类的东西。所以,脚手架往往比那些直接固化在模型里的实际东西要领先几步,然后结果就是模型吞噬了那个脚手架,它变成了原生模型系统的一部分。不过在某些情况下,拥有外部脚手架仍然是有价值的,搜索可能就是一个例子,有很多人使用不同的搜索提供商,并且有你需要的不同应用场景。所以,当然,也许模型可以原生使用搜索,但你同时也想要代码执行等另一个例子。但现在感觉 Agent Harness 可能就是最典型的例子,每个人都会说“啊,我们得去构建一个Harness,Harness才是红利所在”。但我认为,至少在 12 个月内,按照我们今天对Harness的理解,情况也许就不会是这样了。我认为模型届时已经消化吸收了其中的很大一部分。它会被上游化到模型中,而红利将会转移到其他地方。它不会再体现在试图折腾你自己的Harness上,因为模型原生就能做到。
主持人:但我认为人们构建自己Harness的部分原因在于,如果你使用任何给定的模型提供商的框架,你就会被锁定,对吧?所以许多应用层公司想要灵活性,这就是为什么他们要构建自己的框架。
Logan:是的,我认为这就是脚手架故事的一部分。开始时也许确实如此,但随着模型能力的提升,随着时间的推移,这就变得不那么正确了。事实上,我认为如果模型无法使用另一个框架,你就无法拥有一个通用的模型。所以这很重要。几周前我在和别人的另一场谈话中也提到了这一点,我们需要类似“Harness Bench(框架基准测试)”这样的东西,它能实际衡量所有这些不同的模型在适应所有这些不同Harness方面的表现如何。我觉得作为生态系统,我们去衡量这个似乎是很合理的事情。我很想看看哪些模型实际上表现最好。但我认为随着时间的推移,你会期望它们能够使用每一个框架。除非你完全超出了分布范围(out of distribution),但在那种情况下,即使你使用自己的框架,你仍然会完全超出分布范围。所以我不确定这是否真的很重要。
“聚焦”是初创公司的超级力量
主持人:确实如此。那应用层呢?当模型吞噬了框架、吞噬了它周围的那些东西时,你如何看待独立公司能在哪里拥有生存的希望?
Logan:是的,这确实是一个很有意思的故事,这两件事感觉都是真的。一方面,无论我看向哪里,都觉得现在是去构建新东西的最好时机,机会从未如此之多;与此同时,显然模型能做的事情也比以往任何时候都多。我认为存在着“能力结余(capability overhang)”这一方面,其中蕴含着巨大的超额收益(alpha);另一方面,模型公司都在追求解决这些非常通用的问题,而如果你在垂直领域拥有专业知识,就会发现这些垂直领域存在着巨大的价值。你了解客户,了解生态系统,你真的可以把那些最顶尖的模型实验室远远甩在身后,因为“聚焦”就是初创公司的超级力量。如果你能专注于一件事,你就能做成任何事。
而如果你看看那些规模庞大、业务广泛的大公司,它们其实很难做到高度聚焦。在某些方面,这理所当然,也许我有点过度为谷歌的战略辩护了,但我们确实有太多的产品、太多的用户,有太多不同的事情在同时进行。因此,我们实际上无法只专注于某一个领域,作为一家大公司,我们有义务去做很多事情。我认为这对初创公司来说并不成立。所以,我想在 24 个月前,我们都在问自己:哇,看起来机会空间正在发生转移,未来初创公司的机会是不是变少了?但目前来看,实际情况完全不是这样,这真的很令人欣慰。
如果说有什么变化的话,那就是现在的机会反而比以前更多了。比如现在的 AI 编码可以帮助你缩小与那些拥有既定代码库和其他积累的大公司之间的差距,因为你完全可以跑得更快,写软件更迅速。而“智能体原语(agentic primitive)”就像是一个全新的类别,你可以围绕它来构建产品。实际上,在很多情况下,回到关于构建过程中的风险的讨论,这里面确实存在风险,而不同公司的风险偏好是不同的,所以如果你愿意在某些领域承担更多风险,你就能赢得那一批同样愿意承担风险的用户群体。这里的机会实在太多了。
DeepMind 现在像是谷歌的“引擎室”,坚守解决人类真实难题的初心
主持人:太棒了。接下来我想聊聊谷歌 DeepMind 的内部文化,我很想知道现在身处 GDM 内部是什么感觉?你知道,我们曾在 AI Sense 邀请过 Demis,他非常令人鼓舞。我听说 Sergey(谢尔盖·布林)也回来了,你们还迎来了 Noam Shazeer 的回归。来给我讲讲,现在在 GDM 工作到底是一种怎样的体验?
Logan:这不可思议。我确实在努力沉浸其中并感受一切,因为在所有事情发生得一团糟的忙碌中,我总是尽可能多地去反思和体悟,因为好玩的事情真的太多了。GDM 的文化非常有趣,大概有三个观察吧。
第一,回到前面提到的“聚焦”这条线。我们做了很多事情,所以我经常从投资组合的角度来思考这个问题,我认为我们拥有最强大的投资组合之一,这非常令人兴奋。但你也确实会看到某些时刻,比如另一个实验室或另一家公司在某个我们投入不足、或者由于不够聚焦而忽略的特定领域暂时领先。不过,看到我们如何努力去缩小这一差距的过程是很酷的,我非常欣赏这一点。我看过几遍介绍 Demis 的纪录片《思维游戏》(The Thinking Game)。在里面你能看到很多最初的企业文化细节,以及突击行动(strikes)是如何进行的,所有这些其实和今天非常相似:你只要把一群聪明人聚在一起,然后去解决问题就行了。我很喜欢这一点,能成为其中的一部分感觉非常酷。
第二点是,我认为文化是从领导者身上渗透出来的。虽然这可能不是对整个生态系统的完美刻画,但 Demis 是一位获得诺贝尔奖的科学家,也是许多这些研究的元老(OG),你在 DeepMind 的文化中就能深刻感受到这一点。而 Sam(山姆·奥特曼)可能是有史以来世界上最好的商人之一,你同样能在 OpenAI 的文化以及他们应对世界的方式中看到这一点。我对 Dario(达里奥·阿莫代伊)没有特别深入的了解,但我认为 Anthropic 是一个非常有趣的地方。至少作为外部观察者,他看起来是个很有意思、甚至有点神秘内敛的人,这似乎也融入了他们公司的 DNA 和文化中。
其他实验室也都很有趣,但我更喜欢 DeepMind 这种面对世界的极具科学性的态度。Demis 看待这件事的角度,以及他们启动这项使命的原因,纯粹是为了解决人类疾病等重大问题。身处其中,我总想让自己跳出来看,因为人很容易迷失在那种“谁在 SWE-bench 上把分数刷得更高”之类的竞争性比赛中。我们很容易忽略我们做这些事的初衷是为了解决人类切身面临的问题。
在整个硅谷中,我最喜欢的一句名言大概是:“我们不能让别人比我们更让世界变得更美好。”(We can't let other people make the world a better place more than we can.)
现在这个阶段给人的感觉就是这样。这就是加文·贝尔森(Gavin Belson,美剧《硅谷》中的角色)的那句名言,我一直在思考这句话。这就好像我们都在争夺谁能比对方把世界变得更好,当你把它这样框定出来时,会觉得非常搞笑。所以,这绝对不是一个零和博弈,我认为这是一种看待世界的方式。
关于 DeepMind 文化的最后一点是,我们非常像是谷歌的“引擎室”。我想这现在已经一字不差地写在 DeepMind 的官方 X(Twitter)账号简介里了,我非常喜欢这个定位。
Gemini 大规模落地:全面接入谷歌 13 款十亿级用户产品
主持人:你在管理 DeepMind 的 Twitter 吗?
Logan:我没有,我可不想承担在网上帮别人管理账号的责任。那担子太重了。但确实给人那种引擎室的感觉。所以一方面,你拥有根深蒂固的实验室文化;另一方面,你在整个谷歌生态系统中有这么多的合作伙伴,我们和所有人都在合作,从我们之前聊到的 Android,到谷歌云,再到 Gmail、Workspace 等等。
因此,这是一种很有趣的融合:我认为这里不仅有大量的研究工作在进行,同时也有海量的应用工作在推进,比如与一些最前沿的客户实际合作。将 Gemini 部署到拥有十亿级用户的产品中,这是世界上只有两家公司会面临的难题。而我们拥有 13 款这样的产品,谷歌现在每天都在经历这些。在这样一个地方亲眼目睹这一切的发生,并看到为了实现这一目标而诞生的种种创新,真的太有趣了。我觉得这种事情你也只能在谷歌内部才能做到,这真的很酷。
主持人:说得太棒了。那你刚加入时在网上发了那么多推文,有没有让他们(公关团队)感到非常头疼?
Logan:这是一个好问题。比如从公关团队那里获得批准。我在谷歌的经历中,最令人欣慰的收获之一就是能与市场公关团队的那群人合作,他们真的很棒。我知道他们的职责是保护谷歌,确保我们讲正确的故事,确保一堆糟糕的事情不会发生。所以我非常感激并重视与他们的合作。
能够以一种让人觉得真实可信的方式,去讲述能与开发者产生共鸣的故事,而且不需要经历极度繁琐的流程,比如我不需要每条推文都拿去审批,这是一种非常非常积极的文化,这真的是一段不可思议的经历。我总是试图把握好分寸,不要消耗掉我与这些伙伴建立起来的信任和好感。
但整体上是非常正向的,因为归根结底,我认为谷歌很难去讲好一个“真实”的故事。它毕竟是一家大公司,人太多了,想法也太多了。所以你把谷歌的那些神奇魔力拿过来,经过层层人员和繁琐流程的稀释,最后反而错失了那个最美好的故事,那就是谷歌正在做世界上最有趣的科技,并在帮助我们的用户解决世界上一些最困难的问题。能参与并帮助讲述这个故事是一种荣幸。所以这很有趣,我很享受它。
主持人:我很喜欢你正在做的事情,也喜欢 Josh 正在做的事情。我认为你们两位为正如你所说的“我们这个时代最重要的课题”注入了一种非常真诚的人文关怀。所以谢谢你们。太棒了,Logan。非常感谢你今天能来。这是一次涉猎极广的对话,从智能体、编程,到世界模型、开发框架以及 GDM 文化,这里面有太多的干货了。谢谢你今天参与。这真的太好玩了。
Logan:谢谢你的邀请。我也很期待看到我们一直坐在这里的这个布景最后被(Omni模型)大触们改造成什么样。也许在我们面前,甚至可能会出现一条狗。
主持人:一条狗,让我的“狗”梦想成真。我太喜欢这个梗了。太棒了,谢谢你,Logan。
Logan:没问题。
参考链接:
https://www.youtube.com/watch?v=cMAs8z2dehs
——好文链接——
让AI像爱因斯坦?诺奖得主Demis:大模型的下一关是怎么学会提出问题
与图灵奖得主对话AI未来!第八届北京智源大会正式启幕:智源世界模型与智能体最新成果集中亮相
AI基础设施是泡沫吗?AI基建巨头联创:DeepSeek让股价暴跌40%,却创造了销售纪录!我们离技术撞墙还很远
