对姚顺宇的4小时访谈整理

对姚顺宇的4小时访谈整理

节目来源:张小珺|商业访谈录 第 140 期
YouTube:https://www.youtube.com/watch?v=ttkd0t5qTD4
录制时间:2026 年 3 月
发布时间:2026 年 5 月 11 日

整理说明:本文基于 YouTube 自动字幕整理,原字幕经历了”中文语音 → 英文 AI 翻译 → 中文再翻译”的双重转译,口语化表达、术语、人名错漏较多。本文结合嘉宾公开背景资料(清华物理系本科、斯坦福理论物理博士、Anthropic 与 Google DeepMind 研究员)对关键错误做了校正,并在必要处补充背景注释。尽量忠于嘉宾原话和语气,包括其中的”小疯”言论、吐槽和批评。


关于嘉宾身份的重要澄清

硅谷 AI 圈有两位清华同届毕业、英文都叫 Shunyu Yao 的研究者,中文媒体常混淆:

姚顺雨(另一位) 姚顺宇(本期嘉宾)
本科 清华姚班(计算机) 清华物理系(基科班/学堂物理班)
博士 Princeton(NLP) Stanford(理论物理)
代表作 ReAct、Tree of Thoughts、《AI 下半场》 Non-Hermitian Skin Effect(非厄米趋肤效应)、Scramblon 理论
路径 OpenAI → 腾讯首席 AI 科学家(2025) Anthropic → Google DeepMind(2025)

本期嘉宾姚顺宇的公开履历校核:

  • 2015–2019 清华物理系本科,特等奖学金 + 叶企孙物理奖
  • 本科期间 3 篇顶刊(2 篇 PRL + 1 篇 PRB),第一作者与清华王中合作提出 非厄米系统拓扑能带理论新方法
  • 2019–2024 斯坦福大学理论与数学物理博士,导师 Douglas StanfordStephen Shenker,研究量子场论与量子引力动力学
  • 短暂加入伯克利做博士后(正式两周,节目中他说实际待了两三个月)
  • 2024 年 10 月 加入 Anthropic,从事强化学习方向,参与 Claude 3.7、4、4.5 的训练
  • 2025 年 9 月 19 日 从 Anthropic 离职,9 月 29 日 加入 Google DeepMind,Senior Staff Research Scientist
  • 参与 Gemini 3、Gemini 3 Deep Think、Gemini 3.1 Pro 的开发

字幕中所有”顺宇”与”舜宇”、”Anthropic”被译为”人类学/人本主义/人形生物/人为因素/人猿科技/安特罗皮克”等均为同一指代;”双子座/双子星”即 Gemini。


一、两个 Shunyu Yao(01:26)

姚顺宇主动介绍另一位姚顺雨:”我们的主要职业发展道路有一些重叠,所以看起来可能很难把我们区分开来。”他强调两人最大区别是:另一位从一开始就做计算机科学,而自己是物理出身,只是”某种意义上走到了这一步”

两人清华本科同届(姚顺雨在姚班,他在基科班),研究生一个去了 Princeton,一个去了 Stanford——“很奇怪,全世界都觉得 Stanford 是 CS 圣地,Princeton 才是物理圣地,我们俩恰好反着来。”

  • 两人在硅谷时每几周见一次,主要就是”瞎玩”——散步、吃饭、打扑克。
  • 对于另一位姚顺雨提出的 “AI 进入下半场”,姚顺宇坦言:”我一直不太懂上半场、下半场什么意思,这个定义我始终没搞清。”
  • 他自己的阶段定义是:“大家开始不再那么担心一件事,AI 能不能做到这个问题本身是不是定义明确,这是最大的变化。” 一年前 Anthropic 内部还担心追不上 OpenAI 的推理能力;现在 Gemini、OpenAI、Anthropic 三家没谁真担心”赶不上进度”了——难的是想清楚到底该做什么
  • 模型同质化、商品化了,纸面(benchmark)上差距缩到 1–2 个百分点,“大部分是噪声,不是信号”,真正的差异只在实际用户体验里:Claude 工具使用最强,Codex 最近追平,Gemini 日常推理更好、智能体编码还在追赶。

二、竞争与逃逸(07:15)

关于 OpenClaw(字幕原文,疑为某款 2026 年初爆火的智能体 Wrapper 产品)的产品判断

  • “圈内人其实不紧张。圈外比圈内紧张。”他认为 OpenClaw 没有证明什么新东西——Claude 4.5 Opus 发布时,工具使用能力已经领先 OpenAI 和 Gemini 3,只是当时没人包装成产品。
  • Manus 被 Meta 收购(注:节目录制后该收购已被撤销)、OpenClaw 被 OpenAI 收购,这说明”包装层”目前还无法摆脱模型公司的控制——“逃逸速度不够”
  • Wrapper 要活下来只有两条路:
    1. “成长够快”(Cursor 的打法)——在模型公司反应过来前占据足够用户心智,并训练自己的模型。他说 Cursor 现在跟 Anthropic 的关系”已经到了非常微妙的阶段”,Cursor 在训自己的 Composer,双方从亲密伙伴变成竞争对手。
    2. “市场小到模型公司看不上”(Midjourney 的打法)——“有损 Gemini 尊严的”那种细分市场。
  • 被问到 Lovart 是否算:”我觉得他们有机会。”
  • 对 2026 年的预测:模型应当实现 “训练时有限上下文,使用时无限上下文”(train with finite context, use with infinite context)——模型边和你持续交互边判断、丢弃不重要信息,成为真正的私人助理。今年肯定能做到,但有多条技术路径,还要实验验证。
  • 关于 Meta 收购 Manus:他”没完全想明白”,猜测最大好处是拿到一个强大的亚洲产品团队,”中国在产品端比美国更有天赋”;但 Meta 为什么自己做不出这种产品?他也没想清楚。

三、”Pre-train 没有到头”(25:22)

这是他最反主流的判断之一。

  • “2026 年第一季度,模型改进速度完全没有放缓。”
  • 他拒绝用 benchmark 增长来衡量:”benchmark 是定义在 [0, 100] 里的,越接近 100 增长当然越慢,但这不代表用户感受到的增长在慢。从 70% 到 75% 的价值可能比从 50% 到 60% 还大。”
  • 他的判断基于研究者的体感:模型越来越容易学——过去要花很大力气教会模型一件事,现在只要问题定义清楚 + 数据/环境构建对,模型几乎”自动就会”。
  • 预训练(pre-training)过去几个月一直在变强。”几个月前很多人说 Scaling Law 撞墙了,我的经验是没撞墙,接下来四个月也看不到到头的迹象。”
  • 为什么有人觉得撞墙了?他给出三种可能,并直指第三条最常见:
    1. 觉得这个范式本身到头了(可能但只是猜测)
    2. 觉得数据等条件不再满足
    3. “他们自己的工作里有 bug,但没意识到——我观察到绝大多数’撞墙’的人属于这一类。” 修一个 bug 带来的进步,往往比花哨的技巧多得多。
  • 遇到撞墙应该是心态问题:相信问题可解,就会系统性地做消融实验排查——“Gemini 和 Anthropic 在这件事上都做得很好。”
  • 当前主驱动:数据和算力(二者强相关)。算法更像阶段性跃迁(如 Transformer),之后是渐进提效。
  • “在相对清晰的范式(pre-train / post-train)内,主驱动是数据和算力。多模态生成算法还没收敛,仍是科学问题;但自然语言生成已经不是科学问题,只剩工程问题。”
  • “如果我估一个时间线,接下来四个月还会有进步。但 AI 领域谁也没法预测四个月以后。”
  • 谁在兴奋?”做产品的人兴奋于 OpenClaw,做模型的人兴奋于模型进展。Anthropic 和 Gemini 里的人更多在想:AI 很快会把我们取代,我们接下来该干嘛——而不是担心撞墙。”

四、Coding 的爆发(35:08)

为什么编程领域这一年半发展最快?他认为有两大结构性优势:

  1. 奖励信号(reward signal)定义清晰:SWE 任务天然可测,输入输出一匹配就是成功。
  2. 数据基座天然存在:GitHub 几十年沉淀了海量高质量代码,构建环境非常方便。

从产品角度,编码还有一个独特性:好程序员写的代码风格高度相似(简洁、结构清晰、易扩展、抽象合理),所以不需要像社交/游戏那种推荐算法去适应每个用户的口味——这大大简化了产品形态。

  • 他自己的代码产出中 90% 以上由模型生成(保守估计,实际可能 99%);但他花大量时间审 review 代码。”AI 辅助之后,最重要的变成了如何设计它、如何给它合适的 context。”
  • 被问谷歌允不允许用 Claude Code:”你这个问题差点让我丢工作了——谷歌不允许用 Claude Code。”(笑)
  • 工作效率提升 20–50 倍(相比一年半前),但他的工作时间反而更长:”因为能试的想法更多了,以前要等同事几小时才能搞懂一个文件,现在问 Claude 或 Gemini 5 秒就行。”
  • 对谷歌文化的吐槽:“谷歌已经不是那个沿岸划船(coast along)的谷歌了。GenAI 里没人摸鱼,除非你对技术彻底失去兴趣。” 他自己每天 9 点起查邮件和夜间实验,10 点到办公室,单身时干到 10–11 点,妻子在也会带回家干。
  • 下一个 Coding 级别的爆发点?“如果我看得清,我早就去创业了。”(笑)除了编程,其他方向市场都不够大——AIGC 市场受限于”人一天只有 24 小时”;最可能的大市场候选是交互式教育,但也远小于编程。
  • 关于程序员的未来:AI 最终会取代程序员,但是渐进过程;“AI 是高度集中化的技术,让少数人更强,让大多数人失去独特价值”;传统软件工程的终局可能是**”千分之一的人做完所有人的活,拿 100 倍的工资”**。”千分之一只是个比喻数字,也可能是万分之一或十万分之一……别太悲观,我是著名的悲观主义者。”
  • 活下来的那群程序员特征:技术强(充分不必要条件)+ 理解自己在大组织中的定位 + 规划能力强(能把复杂事切成小块分发给不同 AI)。
  • AI 研究本身是淘金热还是科学革命?“都有”。他说训练 AI 产品经理目前不太可能——因为”什么是好产品”没有客观标准,反馈信号太模糊

五、Seedance(50:10)

对字节跳动 Seedance(字节系视频生成模型)的评价:

  • “可能会让 DeepMind 多模态团队有压力,但不是范式级的变化。字节在多模态生成上一直相对强,主要是数据和细节做得好。”
  • 猜测原因是数据,因为多模态算法层面还没根本创新;但他”没在字节工作过,只能瞎猜”。
  • 评价从谷歌跳去字节的吴永辉:”偷偷看过他过去的代码提交和领导项目,他是我见过极少数资深但技术能力还特别强的人之一,我还不到评价他的水平。”
  • 中美模型差距:过去一年半明显在缩小,但是否会完全消失甚至反超,”是个悬而未决的问题”。
  • “中国在实际算力上处于明显劣势,但这个劣势反而催生了一些有趣的东西——中国模型公司非常擅长从其他模型蒸馏。”

六、”硬蒸”和”软蒸”(54:30)

回应 Dario Amodei 最近公开指控三家中国公司蒸馏他们模型:

  • “蒸馏本身是公开的秘密。”
  • 他把蒸馏分为两种:
    • “硬蒸”(brute-force distillation):直接拿 Claude 生成的 token 去强制训练自己的模型。“商业上不道德,智商上相当蠢——等于承认你连自己要做什么都不知道,只能模仿别人,把 benchmark 数字做得好看些。”
    • “软蒸”(smart distillation):在自己的数据 pipeline 里用其他模型做助手,或者用其他模型当 evaluator。“商业上灰色,但技术上其实很有意思——中国实验室可能是 multi-agent 训练领域的先驱:如果他们把多个不同公司、语言分布差异巨大的模型整合进统一训练系统,这才是真正的 multi-agent。”
  • 点名(后期应消音处理):硬蒸某家”之前可能做过,后来逐渐转软蒸”;“蒸得最少的是字节跳动,它的模型仍然非常独特。”
  • 关于豆包:
    • “豆包肯定不如 Gemini 或 Claude 聪明。但豆包的语音生成真的是世界最好的(直白说就是最好,委婉点说是之一)。”
    • 美国公司为什么不做这种方向?“数据问题 + 用户群差异。美国人更关注生产力,中国人才有那么多’人生问题’要问’豆包’。我自己生活很无聊,没什么有趣的人生问题——日常技术问题问 Gemini 就好。”(笑)
    • 豆包手机:”想法很好,但我不知道技术实现上开销多大——不能你让模型帮你订张高铁票,最后花的钱比票本身还贵,那是不能接受的。
    • 苹果 AI 策略:”表面看上去不在乎,其实太在乎了,只是如果太在乎又做不成,就显得自己太蠢。面子问题。

七、机器人(1:04:07)

  • 春晚看过演出,还去亚马逊搜过人形机器人价格,”比我想的便宜多了”,反映了中国硬件产业链的优势
  • 但软件侧:”机器人模型还处在特征工程时代——给定场景,针对这个场景做 RL 优化,每个人都知道怎么做,但泛化能力不强。”
  • “是否具备泛化能力,实际上是 AI 很多方向的分水岭。” 确定性单一场景做好不难,十几年前就能做到;语言模型是在 Transformer / GPT 之后才越过这个阈值——“在一个层面训练就能全面提升所有能力”。机器人还远没到。
  • 参观过 Google DeepMind 自己的机器人实验室和 Physical Intelligence:”实验室比语言模型实验室有趣多了——语言模型实验室就像普通办公室,机器人实验室真的是人工遥控机器人去各种货架取东西。”
  • 机器人目前连 GPT-1 阶段都没到,和多模态生成一样,都还没找到 scale 的办法

八、在 Underdog 之地赌一把(1:08:45)——成长经历

出生在宁夏大武口(一座因煤矿而生的城市),小学到高中在上海。性格自述:”我总是喜欢做我不擅长的事情。

关键人生选择——高中择校:他本可以被上海四大名校(上中、华二、交大附中、复旦附中)的普通班录取,但为了进**”稍差一些”的格致中学的竞赛班而放弃——“赤脚的不怕穿鞋的,值得一试。”**

参加物理竞赛未能进国家集训队(没拿到保送),后来高考也考不上清华。但命运转折:高三清华夏令营期间,听说清华对北京学生有独立招生,他当场给清华招生办老师发短信——“你给北京学生考试,凭什么不让上海学生也考?”——争取到考试机会,考过后签了”第一档降分”协议,最终录取清华。

人生最大的经验:“大胆一些。如果你不争取,就永远得不到。即使你争取,也未必能得到。但如果你不争取,就肯定得不到。”

对父母的评价:”中国家长能做到让孩子’讨论’已经不错了,我一般只是通知他们。我父母最好的地方是,当他们无法理解我在做什么时,他们选择不干涉。”

性格:”在意自己想做的事,别试图阻止我,我会竭尽全力;但我不想做的事,你逼也没用。”、”我更多是和自己竞争,不太愿意和别人竞争——当然如果你也很在乎,那我一定要比你厉害。”


九、非厄米系统与量子物理(1:19:44)

选择凝聚态理论”就是命运的安排”。清华基科班传统是”学生可以做物理以外的事,鼓励早进实验室做研究”——“基科班三分之二的学生最后都不做物理。”

本科导师是王中(Zhong Wang)(字幕写作”王忠”),当时还很年轻、学生不多。王中的博士导师是 张首晟(Shoucheng Zhang)(字幕写作”张守成/寿城”,斯坦福著名凝聚态物理学家,2018 年去世)。”王老师话不多,但很擅长把问题看清楚。”

非厄米系统工作的通俗讲解(他自己给出的进度条提示:不想听可以跳过):

  • 量子力学的基本假设:孤立系统演化由 Hamiltonian(厄米算符)描述。
  • 现实中绝大多数不是孤立系统(和环境交换粒子/能量),对应的 Hamiltonian 是非厄米的
  • 他们最初研究开放量子系统的拓扑现象时,发现解析计算(周期性边界条件)与数值计算(开放边界条件)的结果完全对不上
  • 后来发现:厄米系统的基本范式——布洛赫波假设——在非厄米系统里完全崩溃。非厄米系统的能量本征态全部会堆积在系统边界(即后来广为人知的 Non-Hermitian Skin Effect,非厄米趋肤效应)。
  • 他们建立了一整套描述开放边界非厄米系统本征态和动力学的框架——这是**范式级(paradigm shift)**的工作。

为什么没继续做下去?

  • “范式转变很难 catch,已经 catch 了一次就不想再 catch 同一次。”
  • “这是人性的弱点——我总想挑战自己不知道的事。”
  • 现在回头看,”如果当时继续做下去,那工作会成为这个方向上最重要的工作,我会更有名、更多引用、更好的教职;但科研生涯会变得不那么兴奋。”
  • 所以博士阶段转去搞理论高能物理(量子场论与量子引力),这两个方向”几乎没有任何联系”。

对”挑战难事”的反思:“说得好听点是挑战自己,说得难听点就是自虐。”、”如果一个人只为受虐而受虐,那是心理问题;但如果是为了获得信息、丰富经验和能力,那值得。”

本科学物理最大的收获:“把事情想清楚、做深度阅读、不要过分相信纯理论。”——因为非厄米那个发现本身就源于”数值计算和理论不符,深入追查才找到问题”。


十、高能物理(1:36:27)

承认博士阶段”对世界没有贡献“:

  • “高能物理已经发展到实验完全跟不上理论的程度。” 没有客观评判标准,靠”领域里几位老前辈的主观判断”。
  • “人的一生并不长,何必浪费时间为老年人服务。”
  • 五年博士学到的最重要一课:“做事情要有相对客观的评价标准”,或者说 “做对世界有影响的事”
  • 自我评价:”说实话,我的博士论文没人会说不好,但对世界的影响几乎没有。我个人非常不满意,但也没糟糕到让别人说我偷懒的程度——你可以满足所有外部期望,但自己骗不了自己。”
  • 满足小圈子标准 = 训练一个模型:“一旦进了那个小圈子,你知道评价标准是什么,做好很容易,即使你不认同这些标准。”
  • 博士后两三个月实际在伯克利(正式记录只有两周)后离职,伯克利老师很好:”我告诉他们我可能要去做 AI,他们说不急,先把现有工作保住再说。”

十一、物理与 AI(1:43:09)

物理学家做 AI 的优势

  • 硬技能上帮助其实很少。
  • 真正的帮助在性格/品味:探究本质、做事系统化(无论实验还是理论方法论)。
  • “这不是物理独有——CS、化学、生物背景的人也有这种特质。”
  • Anthropic 特别多物理出身的人,”主要是联系(connection)——联合创始人里两个技术一把手都是物理背景,于是就招了这类人。但到我加入时,这个惯性已经结束了。”

关于 AI 是不是黑箱

  • “一切都是黑箱,连物理也是。” 我们也不知道最微观层面的动力学。
  • 语言模型还没到”神经外科级别”的理解(除了 Anthropic 的 Interpretability 团队在极小网络上能做)。
  • 但 Scaling Law 已经是经验定律——“经验定律和科学定律的界限是模糊的。热力学定律最初也是经验定律,后来有了微观机制的理解才变成科学定律。未来 Scaling Law 可能也会这么演化。”
  • “智能涌现”这个词本身不科学——“对我来说,这更多是主观感受。真正的质变只有一个:技术上能 scale 起来,全面提升所有能力。这是我对’涌现’的唯一定义。”

为什么最终选 AI 而不是量子计算?

  • 两者都给年轻人机会,但量子计算瓶颈在实验平台——“那是我不擅长的,和我兴趣无关的东西很多”。
  • AI 更像 “17 世纪做热力学”——那时候人们甚至还不知道”热”是什么(还相信燃素说),但这并不妨碍做实验、总结出第一定律、第二定律、Clapeyron 方程等经验定律,最终推动热机发明改变世界。
  • “理论物理到实验物理的距离,比理论物理到 AI 还要远。AI 对我来说就是数值实验——有想法,设计实验验证,本质和做物理数值计算没区别。”
  • 对实验物理的敬畏:”大家都知道怎么搭光学平台,有人能搭出来,有人六年搭不出来——这种动手能力我不理解,感觉相当神秘。”

十二、在 Anthropic 训练 Claude 3.7 和 4.5(1:52:32)

入职经过

  • 2024 年 8–9 月,通过前同事联系上 Anthropic(第一个 manager 也是理论物理背景)。
  • 同期也联系了 OpenAI 和 DeepMind——“DeepMind 当时太慢了,最后是 Anthropic 谈成。” OpenAI 没找到合适位置。
  • 面试前把能自学的课程都过了一遍,手写实现了 Andrej Karpathy 的 nanoGPT。
  • 有两个团队接洽他(评估 vs 强化学习),他选了更不确定的 RL 方向

当时 Anthropic 的状态

  • 全公司 700–800 人,他加入的 “Horizon” 大团队只有 10–11 人,几乎就是整个后来的 RL 团队前身。
  • 对 Anthropic 的第一印象:”执行力非常强,相对自上而下的公司;人与人之间没有隐瞒,氛围非常好——因为规模小大家都认识。”
  • Anthropic 为什么能自上而下? 因为技术决策人就是公司联合创始人(Jared Kaplan 和 Sam McCandlish),而且 Dario 与他们互信足够。”其他公司做不到——Ilya 在的时候 OpenAI 或许能,但他后来莫名其妙丧失了决策权,然后就走了。”
  • 他与 Jared Kaplan 合作最多。
  • Anthropic 联合创始人团队 “没有一个离开过”,”他们是真正并肩战斗过的一群人——Scaling Law 论文、GPT-3 论文都是联名作者(Jared、Sam、Dario、Tom Brown、Benjamin Mann 等)。”——这是很多公司做不到的互信基础。

Claude 3.5 → 3.6 → 3.7

  • “Claude 3.5new 被外界叫 3.6,是因为 Anthropic 早期没产品能力——两个模型都叫一个名字(3.5),后来自己被迫接受外部给的 3.6 叫法。所以实际产品线是 3.5 → 3.5new(=3.6)→ 3.7。”
  • Claude 3 发布后 Twitter 上就有人发现它编码比 GPT-4 强;“这是 Anthropic 押注编程的一个信号来源,但最初可能是随机试出来的——纯粹技术原因,先自下而上冒出来,后来自上而下 all-in。”
  • 3.7 是 Anthropic 后训练(post-training)的分水岭:之前 post-training 是”打补丁”模式;3.7 之后才真正大规模 RL。
  • “在我加入时,大家已经知道要做大规模 RL,但不知道具体怎么做。” 2024 年 8–9 月,o1 还没发布,只知道 OpenAI 有个神秘项目叫 Strawberry。
  • 真正的秘诀(他能公开谈的部分):“把简单的事做得比所有人都干净。” RL 最简单的算法是 policy gradient,有很多复杂的算法但会带来 infra 难题;如何 trade-off 这些 detail 才是真正的 expertise
  • 他的一个重要观察:“很多 trick 其实没用。” 不同公司 sampler 和 trainer 的 numerical 差异依赖各自 infra,所以”你照抄别人的算法不一定有用——算法是整个系统的一部分”。”这就是我为什么不爱回答别人问 Anthropic / Gemini 怎么做——回答会误导他们。”

3.7 → 4.5

  • 他离开时 Anthropic 已经接近 2000 人(比他加入时翻倍以上)。
  • “我赶上了小公司的尾声”——三四个月后公司突然变大,文化开始混乱,”有些从外面进来的人带来和原文化的冲突”。
  • 他不喜欢的人“我觉得 ‘ideas are cheap’。真正难的是 implementation。我不喜欢那种每天大部分时间泡在 Slack 里谈 grand principles 的人——没什么用。”(笑)

离职原因

  • 主因:想学不一样的东西。”Anthropic 非常聚焦,只做语言模型相关,不做多模态生成、不太做底层工程和 infra——我想学这些。”
  • 约 40% 原因:不认同 Dario 的反华立场。”作为 CEO 个人他怎么想都可以,但把这种观点推到如此极端,是非常情绪化的反应。”
  • 40% 不是主因,但也不是无关紧要,更不是**”控股股东的原因”**。(笑)
  • 对 Anthropic 未来的看法(离开时):悲观——“API 卖 token 是门烂生意,价格战会来,只有谷歌能赢(供应链优势)。”但后来证明他太悲观了,Anthropic 在产品层面做得非常好(Claude Code、Cowork 等)。
  • 被问会不会后悔:”不太会。我的动机是换位置学东西。”
  • Claude Code 的诞生:“那几乎是当代少有的、还展现个人英雄主义的时刻。” 创始人 Boris Cherny(字幕译为”鲍里斯·切尔尼”)本来只是想给自己和同事提效,最后变成了整个产品。”很可能是和抖音同级别的交互层面变革产品。”

关于”英雄主义已经过去了”

这是贯穿访谈的核心观点之一:

“个人英雄主义在语言模型领域可能已经过去了——也就是 Transformer 那个时刻之后。”

“现在大家都是冲浪的人,本质上是那个浪,而不是你那个冲浪的人。”

“没有英雄,有时候甚至觉得旧时代的英雄有点蠢。”

“我对任何模型的贡献,我的 statement 永远是:我自己对那件事没那么重要;更多是我很幸运,有机会在那时候加入了一个重要项目,做了一些事。”

他特别指出:编程上 Anthropic 的成功确实还有”公司级英雄主义”(敢不敢赌、赌得够不够快),但模型内部的每个技术细节都是集体的。

对 AI Safety 的批评(非常犀利):

  • Anthropic 成立的初衷是 AI safety,但又要训练前沿模型——Anthropic 自己的解释是”必须做最强的模型才有话语权推动 safety 议程”。
  • **”这个想法非常天真——**现在看来这不可能发生。更可能的结果是所有人都有强大前沿模型,没人能阻止任何事。”
  • 真正的机制类比是 核武器多方持有、互相威慑——“靠一家公司自我立法去规制是不可控的——它只能自我规制,但自我规制等于没规制。”
  • 对 Anthropic 可解释性团队:只在非常稀疏、小的网络上有有趣进展,实用语言模型层面还没达到”神经外科级别”。

十三、”AI 本质是简单的”(2:35:03)

核心命题“AI 本质是简单的。”(他强调这是 statement 不是 conclusion)

解释:

  • 因为你可以做实验。相比物理(能量尺度限制了实验数据),AI 不受这种约束——想做什么实验都能做,只是需要时间扩算力、准备 infra,但没有根本性困难。
  • “AI 不会给人撞墙的感觉,不是因为方法穷尽了,而是因为想法太多了,挨个试不过来。”
  • 未来 6–12 个月 AI 会开始自己做实验——不是只写代码,而是运行实验 → 分析结果 → 提出新假设 → 设计新代码 → 跑新实验,这条链会逐渐闭合。

十四、在 Google DeepMind 训练 Gemini 3(2:41:10)

加入 DeepMind 的理由

  • 反对那种”研究员离开大厂加入小厂”的惯性——他反其道而行,因为他当时想要”学更多、更广”
  • “如果你真想把某个想法塞进最终产品模型里,谷歌可能是非常烂的地方;但如果你要的是研究自由、广阔视野,世界上找不到比 Gemini 更强的第二名。”
  • 加入时点(2025 年 9 月底)已经看好 Gemini——Gemini 2.5 那代让业内意识到”Google 正在搞明白”。
  • 他是因为个人联系被挖进去的,双向选择。
  • 为什么没去 OpenAI?“文化让我非常担心。直白说,真正能把事做成的人没 Gemini 那么多,甚至比 Anthropic 还少。”(笑)内部政治斗争也开始显现。
  • xAI:“我不理解。”(笑)”接触过的人后来都走了,我也不知道他们现在怎么样。”

Gemini 3 的转折点

  • Gemini 3 和 Nano Banana 两次叠加才是真正的转折点:Nano Banana 把很多新用户引到 Gemini App,Gemini 3 把他们留住。”只有 Gemini 3 不够——市场份额低于 10% 时,模型再好传播也慢。”
  • Gemini 当前市场份额可能在 20% 左右(他还没精确核查)。
  • “从局外人角度看,是 OpenAI 救了谷歌的命。” 如果 ChatGPT 当时真的完全吞掉了搜索,谷歌就完蛋了;但 OpenAI 做到了”让谷歌意识到重要性,但没做到吞掉搜索”,让谷歌得以反扑。
  • Chatbot 为什么没完全吞掉搜索?
    1. 搜索有大量”非常蠢”的需求——“我就搜一下在哪买米、哪里点好,不想等聊天机器人转半天最后给个链接还要再点一次。”
    2. Chatbot 形态还没达到终点。
  • “聊天机器人凭什么就是终极形态?过了这么多年,居然还只有一个聊天框,我真的觉得很蠢。”——“需要一个产品经理来解锁模型的全部能力。”(笑)

谷歌内部发生了什么

  • 外部看到模型性能大跳;内部是组织逻辑开始清晰
    • 预训练阶段已经有清晰框架——谁负责哪个 node 非常明确(以前非常混乱)。
    • 谷歌工程管理能力极强,预训练已经进入”谷歌的舒适区”,能可控地知道下一代不会坏,甚至能预估好到什么程度
  • Anthropic 走自上而下;谷歌仍然相对自下而上,但比过去更偏自上而下。
  • “不同文化都能 work”——大公司和创业公司的打法本质不同。
  • 谷歌的杀手锏:“找到一个极简的产品表达形式,所有人看起来都一样,然后在技术层面无情地碾压你,你根本竞争不过。” 搜索就是典型例子。
  • OpenAI 的位置:“现在没人的位置是稳固的。” Chatbot 是否是 super app 的终极形态?—“我完全没有理性答案,但感觉事情还没结束。”
  • 对国内”超级应用”叙事的吐槽:“我真的不懂——大家在抢一个 super app,前提是 chatbot 就是 super app 的形态。但我真的觉得 chatbot 很蠢,终极形态凭什么非是这个?”

谷歌的”英雄”

  • 后台的英雄:Sergey Brin(”重大决定最终还得他拍板”)。
  • 前线的英雄:Koray Kavukcuoglu(Google DeepMind CTO / 谷歌高级副总裁)。
  • Demis Hassabis 更偏科学方向(Isomorphic Labs 等),Gemini 日常他见到最多的是 Koray。

十五、技术预测和组织搭建(3:01:28)

预训练 vs 后训练

  • 纯技术上两者本质区别不大——最大区别在数据分布:预训练要 广(不需要 quality 特别高);后训练要 窄而精(quality 要求极高)。
  • 不同实验室组织方式:
    • Anthropic / Gemini:pre-train 和 post-train 分两支队伍。
    • OpenAI:更混乱——最早三队(pre-train、RL “Strawberry”、post-train),而且他们的 post-train 本身就是产品团队,”训模型的人也参与产品”。

对”下一个范式转变”的判断

  • 大概率不是范式级变化,但对谷歌特别有价值的两件事:
    1. 机器学习编码(ML coding):让 AI 能加速 AI 自身的研究闭环——谷歌是 AI 研究最完整平台(硬件 + 连接 + 模型),这件事对谷歌价值巨大。
    2. 长远规划 / 长时程(long horizon):每个人都觉得重要。
  • 对实现方向:
    • 预训练侧:sparse attention(稀疏注意力,DeepSeek 和学术界都在做)。
    • 后训练侧:类似 Cursor 那种外部上下文管理(让模型选择保留或扔掉哪部分)。
    • 两者本质相同——上下文 token 的 KV cache 也是一种权重。
  • “**一万个人有一万种’世界模型’**的定义。Gemini 的世界模型更像端到端训练(条件生成下一刻场景);李飞飞那种是另一回事——我不太懂她们实验室在做什么。”
  • Continual learning(持续学习)和 long horizon 本质没区别。
  • 主要精力在后训练方法(预训练不做正式工作)。
  • “Gemini 在 long context 上的一些技巧真的让我惊讶。”(笑)

AI 人才稀缺性质疑

  • 高薪是因为大家觉得稀缺,但**”可能没那么稀缺——训练一个人不难,只是你需要遇到做这件事的环境。过去有这种机会的人不多,所以市场上相对稀缺。另一方面,可能对某些人的吹捧也过头了,大家特别爱神话某些人。”**

他设计的面试题(可公开)

  • 要求候选人 24 小时从零做一个 RL 项目——自己选模型、数据、算法,然后和他讨论一小时。
  • 两个目的:
    1. 看候选人与 AI 合作的能力(现在写代码本身不再稀缺)——有个陷阱:如果完全把活丢给 AI 自己不理解,讨论一小时就暴露了
    2. 24 小时限制是看他重不重视这个机会——能不能熬夜。不重视的人连这 24 小时都熬不住。“(笑)”这里面还有些阴暗的小巧思。”

工程 vs 科学

  • “谷歌的预训练现在已经变成工程项目——自上而下、节点清晰、可评估。这是谷歌的强项。”
  • 后训练不确定性更大,仍是自下而上、每个人尝试不同方法。

组织的核心原则

  • “系统稳固 + 个人英雄不闪耀”“允许个人英雄闪耀但系统脆弱” 的 trade-off。
  • 他倾向前者——“系统不稳固的一个例子就是 OpenAI:一个人走,整个结构就可能塌。”
  • 对自己的要求:“研究员必须为整体考虑,不然不是好研究员。在学术界是’一人吃饱全家不愁’;在公司里你要对公司负责——这是两种完全不同的心态。”
  • 他承认:”我可能就是拉不下脸——既然签了合约,我觉得不按合约做没什么道理。”

TPU vs GPU

  • 大规模商业部署上没有优劣差异。开源生态 GPU 更好,但这对大规模部署不是瓶颈。
  • 设计理念不同:
    • GPU(尤其 Hopper 一代):单 pod 内 NVLink 带宽极高,但 pod 内卡少(8 张)。
    • TPU:放弃卡间两两互联,用 3D Torus 拓扑把更多卡组成一个大 rack,每张卡只与 3 个最近邻相连。如果编译器/分片写得好,总内存容量更大、通信瓶颈更少
  • TPU 缺点:小规模用不灵活、通用性差

对 xAI 的评价

简短、尖锐:“我不理解。他们一直都挺动荡的。”(笑)


十六、集体主义胜利(3:23:33)

对新实验室潮的吐槽

  • 最近硅谷一堆新 AI 实验室:”绝大多数新实验室会倒闭。
  • Thinking Machines 还在持续出新东西;但某些新实验室(后期消音)——“我完全不知道他们想干嘛,创始人其实已经离开赛场很久了。”

中美路线分化

  • 中美已分道扬镳。中国优势在消费侧
    • “中国能想出非常复杂、看起来很不自然的产品结构,让利润滚雪球——抖音你看视频不收 0.2 美元,但偷偷加广告、直播、电商。”
    • 美国这种玩法玩不转——“生产力软件:我帮你写代码,150 成本,200 卖给你,我赚 50,就这么简单。”
  • “Meta 就应该直接抄字节跳动——它又找不到自己的定位,做消费产品的能力又远不如字节。但美国过去十年有个正反馈循环:B2B 太容易赚钱,大家都不想烧脑研究如何赚消费端的钱。”

AI 人工神话

  • “我进这个行业的时候,个人英雄主义时代已经过去了——所以没有英雄。”
  • “没有哪个老登是你的亲戚——所以你觉得他傻,他就是傻,可以直接说他傻,无所谓。”(笑)
  • 为什么敢这么讲?
    1. “我在这个行业没有什么导师,没有什么旧友,我当然想喷谁就喷谁。”
    2. “这个领域足够客观——你在这个领域做得怎么样是有客观评价标准的,最终大家会尊重你。只要你观点自洽、不是乱喷,不用太担心因为观点得罪谁。”
  • 为什么来 AI:“AI 这个事本来也不太需要脑子,真的不太需要脑子。这个行业最重要的特质就是靠谱、做事细、对自己做的事情负责任。” 在物理里,他见过比自己聪明得多的人(比如他的博士导师 Douglas Stanford)——“他在那里,哪还需要我?”
  • 对旧时代 AI”英雄”的评价(点名后期消音,但线索明显):
    • XXX(某位以模糊表述见长的人)“我觉得他一直都挺蠢的”——“用 Pauli 的话说,他甚至不能算错,因为他说的东西都没有明确定义——我最讨厌这种模糊的人,模糊的东西没有意义。
    • 他愿意承认的英雄:
      • Haldane(霍尔丹,凝聚态物理拓扑态的奠基人)——“他第一次提出 Haldane model 和分数量子霍尔相关的东西,离后来整个领域搞明白拓扑态还隔了几十年,但他当时就能感觉到这件事重要,一直推动。”
      • Geoffrey Hinton(字幕译为”杰弗里·辛顿”)——“在大家都觉得 AI 这条路不确定时,他一直朝这个方向。这或许是英雄级别的人物。”
      • Transformer 集体(Noam Shazeer、Ashish Vaswani、Niki Parmar 等)——“这可能是一个英雄集体。”
  • 对”老登”(中文网络对守旧老年男性的贬称)的态度:
    • “大多数老登其实挺好的——人老了会分成两种:一种是德高望重、不再挑刺、真正指导年轻人;另一种是根本不知道自己在说什么,还特别爱挑刺和对人指手画脚。变老不一定就是老登。
    • 他不是一开始就这么直接的——“学生时代比较克制,但后来发现克制对自己没好处,对别人也没好处。进 AI 之后变得更直接——没有任何东西会阻挡我,而且这个领域足够客观。”

给年轻人的建议

  • 纯语言模型方向:“蓝海已经不是蓝海了,我赶上了末班车。”
  • 但 AI 是非常大的领域——多模态生成、机器人、用 AI 解决实际科学问题(如量子控制)都还是蓝海。
  • “对足够年轻的人,做现在最热的事未必是对的;做没人做的事,可能是更好的选择。”

关于自己的未来

  • 不会在谷歌长留(”如此公开地表达这一点——我觉得可能不会。”)。
  • “我还是会去挑战自己,需要折磨自己,只是得先找到值得折磨自己的东西。”
  • 不太可能再跳大厂;也没想做 AI for Physics——“很多人已经在做,多我一个不多,少我一个不少。”
  • 当前首要任务:把 ML coding 和 long horizon 推到相对稳定的状态。

推荐

  • 改变人生的书:“说实话我没有。” 最近读的是 汤川秀树(Hideki Yukawa,1949 年诺贝尔物理学奖)自传《旅人》(Tabibito)——“能看到一位后来非常成功的科学家,年轻时真实的挣扎。”
  • 休闲读物:《来自新世界》(贵志佑介,日本小说)。
  • 最喜欢的地方:夏威夷(因为喜欢大海)。
  • 食物:寿司。
  • 他认为最有影响力的 AI 论文:
    • Seq2Seq
    • Scaling Law 论文(Jared Kaplan 等 OpenAI 那篇)——“虽然具体方法可能不完全对,但它是第一篇把这种系统性研究方法引入领域的论文,至关重要。”
  • MBTI?“不知道。”

最后一问:”关键的赌注是什么?”

“Long horizon.(长时程)”


补充:几个交叉验证与背景注释

  1. 离职 Anthropic 原因的对照:姚顺宇在个人博客(alfredyao.github.io)的说法与访谈一致——强调”不想让自己的经验被特定实验室局限,尤其现在核心研究很少发表论文”。访谈中他直接说出 约 40% 是反对 Dario 反华立场,这在其博客和 36kr、新智元等公开报道中也有交叉证据。
  2. 参与的模型的可靠性:36kr 报道证实他参与了 Claude 3.7(agentic coding)和 Claude 4 family(RL numerics);Gemini 3 Deep Think 的参与也有谷歌自家公告确认。
  3. 非厄米趋肤效应:访谈中他描述的”周期/开放边界结果完全对不上、本征态全部堆积在边界”正是 PRL 论文 Edge States and Topological Invariants of Non-Hermitian Systems(Yao & Wang 2018)的核心发现,与本人描述完全吻合——字幕里的”王忠”实为王中(Zhong Wang)张守成/寿城实为张首晟(Shoucheng Zhang)
  4. 博士导师:Douglas Stanford 和 Stephen Shenker 是 Stanford Institute for Theoretical Physics 的顶级高能/量子引力学家,访谈中他特别说 Douglas Stanford “比我聪明得多”——是真诚的敬畏。
  5. “Claude 3.6 其实是 3.5 new”:这点与 Anthropic 官方命名历史一致,外部社区确实因 Claude 3.5 出了两个版本而自发叫后者”3.6”。
  6. 节目录制时间(2026 年 3 月)与发布时间(2026 年 5 月)之间已发生:Meta 对 Manus 收购被撤销、Cursor 可能被 SpaceX 收购、xAI 并入 SpaceX——文中相关表述按录制时状态保留,访谈中嘉宾对 xAI 的吐槽(”一直挺动荡”)反而被事态坐实。

核心观点速览

维度 姚顺宇的判断
预训练 远没到头,过去几个月一直在变强;觉得撞墙多半是代码 bug 没找到
后训练 真正大规模化始于 Claude 3.7;关键在数据分布是窄而精
Coding 爆发源于奖励信号清晰 + GitHub 数据基座;已是 AI-native 唯一大规模成功场景
机器人/多模态生成 都还没到 GPT-1 阶段,还在特征工程时代
Chatbot 形态 蠢,远不是终极形态,需要产品经理解锁
Wrapper 生存 要么成长够快(Cursor),要么市场够小(Midjourney);否则都被收购
AI 安全 Anthropic 的”造最强模型才有话语权”太天真;真正的机制类比是核武器多方威慑
蒸馏 硬蒸可耻且蠢;软蒸是 multi-agent 训练的先驱,技术上有趣
组织 系统稳固 > 个人英雄闪耀;OpenAI 是反例
英雄主义 语言模型领域已经过去;现在都是冲浪者,本质是那个浪
AI 本质 简单——因为可以做实验,受限的只是算力和 infra,无根本困难
给年轻人 语言模型蓝海已过;做没人做的事
个人风格 直接、可以喷人、”老登不是你亲戚”、拒绝模糊表述