对姚顺宇的4小时访谈整理

发表于 2026-05-13 分类于 others 阅读次数：

对姚顺宇的4小时访谈整理

节目来源：张小珺｜商业访谈录第 140 期
YouTube：https://www.youtube.com/watch?v=ttkd0t5qTD4
录制时间：2026 年 3 月
发布时间：2026 年 5 月 11 日

整理说明：本文基于 YouTube 自动字幕整理，原字幕经历了”中文语音 → 英文 AI 翻译 → 中文再翻译”的双重转译，口语化表达、术语、人名错漏较多。本文结合嘉宾公开背景资料（清华物理系本科、斯坦福理论物理博士、Anthropic 与 Google DeepMind 研究员）对关键错误做了校正，并在必要处补充背景注释。尽量忠于嘉宾原话和语气，包括其中的”小疯”言论、吐槽和批评。

关于嘉宾身份的重要澄清

硅谷 AI 圈有两位清华同届毕业、英文都叫 Shunyu Yao 的研究者，中文媒体常混淆：

	姚顺雨（另一位）	姚顺宇（本期嘉宾）
本科	清华姚班（计算机）	清华物理系（基科班/学堂物理班）
博士	Princeton（NLP）	Stanford（理论物理）
代表作	ReAct、Tree of Thoughts、《AI 下半场》	Non-Hermitian Skin Effect（非厄米趋肤效应）、Scramblon 理论
路径	OpenAI → 腾讯首席 AI 科学家（2025）	Anthropic → Google DeepMind（2025）

本期嘉宾姚顺宇的公开履历校核：

2015–2019 清华物理系本科，特等奖学金 + 叶企孙物理奖
本科期间 3 篇顶刊（2 篇 PRL + 1 篇 PRB），第一作者与清华王中合作提出 非厄米系统拓扑能带理论新方法
2019–2024 斯坦福大学理论与数学物理博士，导师 Douglas Stanford 与 Stephen Shenker，研究量子场论与量子引力动力学
短暂加入伯克利做博士后（正式两周，节目中他说实际待了两三个月）
2024 年 10 月 加入 Anthropic，从事强化学习方向，参与 Claude 3.7、4、4.5 的训练
2025 年 9 月 19 日 从 Anthropic 离职，9 月 29 日 加入 Google DeepMind，Senior Staff Research Scientist
参与 Gemini 3、Gemini 3 Deep Think、Gemini 3.1 Pro 的开发

字幕中所有”顺宇”与”舜宇”、”Anthropic”被译为”人类学/人本主义/人形生物/人为因素/人猿科技/安特罗皮克”等均为同一指代；”双子座/双子星”即 Gemini。

一、两个 Shunyu Yao（01:26）

姚顺宇主动介绍另一位姚顺雨：”我们的主要职业发展道路有一些重叠，所以看起来可能很难把我们区分开来。”他强调两人最大区别是：另一位从一开始就做计算机科学，而自己是物理出身，只是”某种意义上走到了这一步”。

两人清华本科同届（姚顺雨在姚班，他在基科班），研究生一个去了 Princeton，一个去了 Stanford——“很奇怪，全世界都觉得 Stanford 是 CS 圣地，Princeton 才是物理圣地，我们俩恰好反着来。”

两人在硅谷时每几周见一次，主要就是”瞎玩”——散步、吃饭、打扑克。
对于另一位姚顺雨提出的 “AI 进入下半场”，姚顺宇坦言：”我一直不太懂上半场、下半场什么意思，这个定义我始终没搞清。”
他自己的阶段定义是：“大家开始不再那么担心一件事，AI 能不能做到这个问题本身是不是定义明确，这是最大的变化。” 一年前 Anthropic 内部还担心追不上 OpenAI 的推理能力；现在 Gemini、OpenAI、Anthropic 三家没谁真担心”赶不上进度”了——难的是想清楚到底该做什么。
模型同质化、商品化了，纸面（benchmark）上差距缩到 1–2 个百分点，“大部分是噪声，不是信号”，真正的差异只在实际用户体验里：Claude 工具使用最强，Codex 最近追平，Gemini 日常推理更好、智能体编码还在追赶。

二、竞争与逃逸（07:15）

关于 OpenClaw（字幕原文，疑为某款 2026 年初爆火的智能体 Wrapper 产品）的产品判断：

“圈内人其实不紧张。圈外比圈内紧张。”他认为 OpenClaw 没有证明什么新东西——Claude 4.5 Opus 发布时，工具使用能力已经领先 OpenAI 和 Gemini 3，只是当时没人包装成产品。
Manus 被 Meta 收购（注：节目录制后该收购已被撤销）、OpenClaw 被 OpenAI 收购，这说明”包装层”目前还无法摆脱模型公司的控制——“逃逸速度不够”。
Wrapper 要活下来只有两条路：
1. “成长够快”（Cursor 的打法）——在模型公司反应过来前占据足够用户心智，并训练自己的模型。他说 Cursor 现在跟 Anthropic 的关系”已经到了非常微妙的阶段”，Cursor 在训自己的 Composer，双方从亲密伙伴变成竞争对手。
2. “市场小到模型公司看不上”（Midjourney 的打法）——“有损 Gemini 尊严的”那种细分市场。
被问到 Lovart 是否算：”我觉得他们有机会。”
对 2026 年的预测：模型应当实现 “训练时有限上下文，使用时无限上下文”（train with finite context, use with infinite context）——模型边和你持续交互边判断、丢弃不重要信息，成为真正的私人助理。今年肯定能做到，但有多条技术路径，还要实验验证。
关于 Meta 收购 Manus：他”没完全想明白”，猜测最大好处是拿到一个强大的亚洲产品团队，”中国在产品端比美国更有天赋”；但 Meta 为什么自己做不出这种产品？他也没想清楚。

三、”Pre-train 没有到头”（25:22）

这是他最反主流的判断之一。

“2026 年第一季度，模型改进速度完全没有放缓。”
他拒绝用 benchmark 增长来衡量：”benchmark 是定义在 [0, 100] 里的，越接近 100 增长当然越慢，但这不代表用户感受到的增长在慢。从 70% 到 75% 的价值可能比从 50% 到 60% 还大。”
他的判断基于研究者的体感：模型越来越容易学——过去要花很大力气教会模型一件事，现在只要问题定义清楚 + 数据/环境构建对，模型几乎”自动就会”。
预训练（pre-training）过去几个月一直在变强。”几个月前很多人说 Scaling Law 撞墙了，我的经验是没撞墙，接下来四个月也看不到到头的迹象。”
为什么有人觉得撞墙了？他给出三种可能，并直指第三条最常见：
1. 觉得这个范式本身到头了（可能但只是猜测）
2. 觉得数据等条件不再满足
3. “他们自己的工作里有 bug，但没意识到——我观察到绝大多数’撞墙’的人属于这一类。” 修一个 bug 带来的进步，往往比花哨的技巧多得多。
遇到撞墙应该是心态问题：相信问题可解，就会系统性地做消融实验排查——“Gemini 和 Anthropic 在这件事上都做得很好。”
当前主驱动：数据和算力（二者强相关）。算法更像阶段性跃迁（如 Transformer），之后是渐进提效。
“在相对清晰的范式（pre-train / post-train）内，主驱动是数据和算力。多模态生成算法还没收敛，仍是科学问题；但自然语言生成已经不是科学问题，只剩工程问题。”
“如果我估一个时间线，接下来四个月还会有进步。但 AI 领域谁也没法预测四个月以后。”
谁在兴奋？”做产品的人兴奋于 OpenClaw，做模型的人兴奋于模型进展。Anthropic 和 Gemini 里的人更多在想：AI 很快会把我们取代，我们接下来该干嘛——而不是担心撞墙。”

四、Coding 的爆发（35:08）

为什么编程领域这一年半发展最快？他认为有两大结构性优势：

奖励信号（reward signal）定义清晰：SWE 任务天然可测，输入输出一匹配就是成功。
数据基座天然存在：GitHub 几十年沉淀了海量高质量代码，构建环境非常方便。

从产品角度，编码还有一个独特性：好程序员写的代码风格高度相似（简洁、结构清晰、易扩展、抽象合理），所以不需要像社交/游戏那种推荐算法去适应每个用户的口味——这大大简化了产品形态。

他自己的代码产出中 90% 以上由模型生成（保守估计，实际可能 99%）；但他花大量时间审 review 代码。”AI 辅助之后，最重要的变成了如何设计它、如何给它合适的 context。”
被问谷歌允不允许用 Claude Code：”你这个问题差点让我丢工作了——谷歌不允许用 Claude Code。”（笑）
工作效率提升 20–50 倍（相比一年半前），但他的工作时间反而更长：”因为能试的想法更多了，以前要等同事几小时才能搞懂一个文件，现在问 Claude 或 Gemini 5 秒就行。”
对谷歌文化的吐槽：“谷歌已经不是那个沿岸划船（coast along）的谷歌了。GenAI 里没人摸鱼，除非你对技术彻底失去兴趣。” 他自己每天 9 点起查邮件和夜间实验，10 点到办公室，单身时干到 10–11 点，妻子在也会带回家干。
下一个 Coding 级别的爆发点？“如果我看得清，我早就去创业了。”（笑）除了编程，其他方向市场都不够大——AIGC 市场受限于”人一天只有 24 小时”；最可能的大市场候选是交互式教育，但也远小于编程。
关于程序员的未来：AI 最终会取代程序员，但是渐进过程；“AI 是高度集中化的技术，让少数人更强，让大多数人失去独特价值”；传统软件工程的终局可能是**”千分之一的人做完所有人的活，拿 100 倍的工资”**。”千分之一只是个比喻数字，也可能是万分之一或十万分之一……别太悲观，我是著名的悲观主义者。”
活下来的那群程序员特征：技术强（充分不必要条件）+ 理解自己在大组织中的定位 + 规划能力强（能把复杂事切成小块分发给不同 AI）。
AI 研究本身是淘金热还是科学革命？“都有”。他说训练 AI 产品经理目前不太可能——因为”什么是好产品”没有客观标准，反馈信号太模糊。

五、Seedance（50:10）

对字节跳动 Seedance（字节系视频生成模型）的评价：

“可能会让 DeepMind 多模态团队有压力，但不是范式级的变化。字节在多模态生成上一直相对强，主要是数据和细节做得好。”
猜测原因是数据，因为多模态算法层面还没根本创新；但他”没在字节工作过，只能瞎猜”。
评价从谷歌跳去字节的吴永辉：”偷偷看过他过去的代码提交和领导项目，他是我见过极少数资深但技术能力还特别强的人之一，我还不到评价他的水平。”
中美模型差距：过去一年半明显在缩小，但是否会完全消失甚至反超，”是个悬而未决的问题”。
“中国在实际算力上处于明显劣势，但这个劣势反而催生了一些有趣的东西——中国模型公司非常擅长从其他模型蒸馏。”

六、”硬蒸”和”软蒸”（54:30）

回应 Dario Amodei 最近公开指控三家中国公司蒸馏他们模型：

“蒸馏本身是公开的秘密。”
他把蒸馏分为两种：
- “硬蒸”（brute-force distillation）：直接拿 Claude 生成的 token 去强制训练自己的模型。“商业上不道德，智商上相当蠢——等于承认你连自己要做什么都不知道，只能模仿别人，把 benchmark 数字做得好看些。”
- “软蒸”（smart distillation）：在自己的数据 pipeline 里用其他模型做助手，或者用其他模型当 evaluator。“商业上灰色，但技术上其实很有意思——中国实验室可能是 multi-agent 训练领域的先驱：如果他们把多个不同公司、语言分布差异巨大的模型整合进统一训练系统，这才是真正的 multi-agent。”
点名（后期应消音处理）：硬蒸某家”之前可能做过，后来逐渐转软蒸”；“蒸得最少的是字节跳动，它的模型仍然非常独特。”
关于豆包：
- “豆包肯定不如 Gemini 或 Claude 聪明。但豆包的语音生成真的是世界最好的（直白说就是最好，委婉点说是之一）。”
- 美国公司为什么不做这种方向？“数据问题 + 用户群差异。美国人更关注生产力，中国人才有那么多’人生问题’要问’豆包’。我自己生活很无聊，没什么有趣的人生问题——日常技术问题问 Gemini 就好。”（笑）
- 豆包手机：”想法很好，但我不知道技术实现上开销多大——不能你让模型帮你订张高铁票，最后花的钱比票本身还贵，那是不能接受的。“
- 苹果 AI 策略：”表面看上去不在乎，其实太在乎了，只是如果太在乎又做不成，就显得自己太蠢。面子问题。“

七、机器人（1:04:07）

春晚看过演出，还去亚马逊搜过人形机器人价格，”比我想的便宜多了”，反映了中国硬件产业链的优势。
但软件侧：”机器人模型还处在特征工程时代——给定场景，针对这个场景做 RL 优化，每个人都知道怎么做，但泛化能力不强。”
“是否具备泛化能力，实际上是 AI 很多方向的分水岭。” 确定性单一场景做好不难，十几年前就能做到；语言模型是在 Transformer / GPT 之后才越过这个阈值——“在一个层面训练就能全面提升所有能力”。机器人还远没到。
参观过 Google DeepMind 自己的机器人实验室和 Physical Intelligence：”实验室比语言模型实验室有趣多了——语言模型实验室就像普通办公室，机器人实验室真的是人工遥控机器人去各种货架取东西。”
机器人目前连 GPT-1 阶段都没到，和多模态生成一样，都还没找到 scale 的办法。

八、在 Underdog 之地赌一把（1:08:45）——成长经历

出生在宁夏大武口（一座因煤矿而生的城市），小学到高中在上海。性格自述：”我总是喜欢做我不擅长的事情。“

关键人生选择——高中择校：他本可以被上海四大名校（上中、华二、交大附中、复旦附中）的普通班录取，但为了进**”稍差一些”的格致中学的竞赛班而放弃——“赤脚的不怕穿鞋的，值得一试。”**

参加物理竞赛未能进国家集训队（没拿到保送），后来高考也考不上清华。但命运转折：高三清华夏令营期间，听说清华对北京学生有独立招生，他当场给清华招生办老师发短信——“你给北京学生考试，凭什么不让上海学生也考？”——争取到考试机会，考过后签了”第一档降分”协议，最终录取清华。

人生最大的经验：“大胆一些。如果你不争取，就永远得不到。即使你争取，也未必能得到。但如果你不争取，就肯定得不到。”

对父母的评价：”中国家长能做到让孩子’讨论’已经不错了，我一般只是通知他们。我父母最好的地方是，当他们无法理解我在做什么时，他们选择不干涉。”

性格：”在意自己想做的事，别试图阻止我，我会竭尽全力；但我不想做的事，你逼也没用。”、”我更多是和自己竞争，不太愿意和别人竞争——当然如果你也很在乎，那我一定要比你厉害。”

九、非厄米系统与量子物理（1:19:44）

选择凝聚态理论”就是命运的安排”。清华基科班传统是”学生可以做物理以外的事，鼓励早进实验室做研究”——“基科班三分之二的学生最后都不做物理。”

本科导师是王中（Zhong Wang）（字幕写作”王忠”），当时还很年轻、学生不多。王中的博士导师是 张首晟（Shoucheng Zhang）（字幕写作”张守成/寿城”，斯坦福著名凝聚态物理学家，2018 年去世）。”王老师话不多，但很擅长把问题看清楚。”

非厄米系统工作的通俗讲解（他自己给出的进度条提示：不想听可以跳过）：

量子力学的基本假设：孤立系统演化由 Hamiltonian（厄米算符）描述。
现实中绝大多数不是孤立系统（和环境交换粒子/能量），对应的 Hamiltonian 是非厄米的。
他们最初研究开放量子系统的拓扑现象时，发现解析计算（周期性边界条件）与数值计算（开放边界条件）的结果完全对不上。
后来发现：厄米系统的基本范式——布洛赫波假设——在非厄米系统里完全崩溃。非厄米系统的能量本征态全部会堆积在系统边界（即后来广为人知的 Non-Hermitian Skin Effect，非厄米趋肤效应）。
他们建立了一整套描述开放边界非厄米系统本征态和动力学的框架——这是**范式级（paradigm shift）**的工作。

为什么没继续做下去？

“范式转变很难 catch，已经 catch 了一次就不想再 catch 同一次。”
“这是人性的弱点——我总想挑战自己不知道的事。”
现在回头看，”如果当时继续做下去，那工作会成为这个方向上最重要的工作，我会更有名、更多引用、更好的教职；但科研生涯会变得不那么兴奋。”
所以博士阶段转去搞理论高能物理（量子场论与量子引力），这两个方向”几乎没有任何联系”。

对”挑战难事”的反思：“说得好听点是挑战自己，说得难听点就是自虐。”、”如果一个人只为受虐而受虐，那是心理问题；但如果是为了获得信息、丰富经验和能力，那值得。”

本科学物理最大的收获：“把事情想清楚、做深度阅读、不要过分相信纯理论。”——因为非厄米那个发现本身就源于”数值计算和理论不符，深入追查才找到问题”。

十、高能物理（1:36:27）

承认博士阶段”对世界没有贡献“：

“高能物理已经发展到实验完全跟不上理论的程度。” 没有客观评判标准，靠”领域里几位老前辈的主观判断”。
“人的一生并不长，何必浪费时间为老年人服务。”
五年博士学到的最重要一课：“做事情要有相对客观的评价标准”，或者说 “做对世界有影响的事”。
自我评价：”说实话，我的博士论文没人会说不好，但对世界的影响几乎没有。我个人非常不满意，但也没糟糕到让别人说我偷懒的程度——你可以满足所有外部期望，但自己骗不了自己。”
满足小圈子标准 = 训练一个模型：“一旦进了那个小圈子，你知道评价标准是什么，做好很容易，即使你不认同这些标准。”
博士后两三个月实际在伯克利（正式记录只有两周）后离职，伯克利老师很好：”我告诉他们我可能要去做 AI，他们说不急，先把现有工作保住再说。”

十一、物理与 AI（1:43:09）

物理学家做 AI 的优势：

硬技能上帮助其实很少。
真正的帮助在性格/品味：探究本质、做事系统化（无论实验还是理论方法论）。
但 “这不是物理独有——CS、化学、生物背景的人也有这种特质。”
Anthropic 特别多物理出身的人，”主要是联系（connection）——联合创始人里两个技术一把手都是物理背景，于是就招了这类人。但到我加入时，这个惯性已经结束了。”

关于 AI 是不是黑箱：

“一切都是黑箱，连物理也是。” 我们也不知道最微观层面的动力学。
语言模型还没到”神经外科级别”的理解（除了 Anthropic 的 Interpretability 团队在极小网络上能做）。
但 Scaling Law 已经是经验定律——“经验定律和科学定律的界限是模糊的。热力学定律最初也是经验定律，后来有了微观机制的理解才变成科学定律。未来 Scaling Law 可能也会这么演化。”
“智能涌现”这个词本身不科学——“对我来说，这更多是主观感受。真正的质变只有一个：技术上能 scale 起来，全面提升所有能力。这是我对’涌现’的唯一定义。”

为什么最终选 AI 而不是量子计算？

两者都给年轻人机会，但量子计算瓶颈在实验平台——“那是我不擅长的，和我兴趣无关的东西很多”。
AI 更像 “17 世纪做热力学”——那时候人们甚至还不知道”热”是什么（还相信燃素说），但这并不妨碍做实验、总结出第一定律、第二定律、Clapeyron 方程等经验定律，最终推动热机发明改变世界。
“理论物理到实验物理的距离，比理论物理到 AI 还要远。AI 对我来说就是数值实验——有想法，设计实验验证，本质和做物理数值计算没区别。”
对实验物理的敬畏：”大家都知道怎么搭光学平台，有人能搭出来，有人六年搭不出来——这种动手能力我不理解，感觉相当神秘。”

十二、在 Anthropic 训练 Claude 3.7 和 4.5（1:52:32）

入职经过

2024 年 8–9 月，通过前同事联系上 Anthropic（第一个 manager 也是理论物理背景）。
同期也联系了 OpenAI 和 DeepMind——“DeepMind 当时太慢了，最后是 Anthropic 谈成。” OpenAI 没找到合适位置。
面试前把能自学的课程都过了一遍，手写实现了 Andrej Karpathy 的 nanoGPT。
有两个团队接洽他（评估 vs 强化学习），他选了更不确定的 RL 方向。

当时 Anthropic 的状态

全公司 700–800 人，他加入的 “Horizon” 大团队只有 10–11 人，几乎就是整个后来的 RL 团队前身。
对 Anthropic 的第一印象：”执行力非常强，相对自上而下的公司；人与人之间没有隐瞒，氛围非常好——因为规模小大家都认识。”
Anthropic 为什么能自上而下？ 因为技术决策人就是公司联合创始人（Jared Kaplan 和 Sam McCandlish），而且 Dario 与他们互信足够。”其他公司做不到——Ilya 在的时候 OpenAI 或许能，但他后来莫名其妙丧失了决策权，然后就走了。”
他与 Jared Kaplan 合作最多。
Anthropic 联合创始人团队 “没有一个离开过”，”他们是真正并肩战斗过的一群人——Scaling Law 论文、GPT-3 论文都是联名作者（Jared、Sam、Dario、Tom Brown、Benjamin Mann 等）。”——这是很多公司做不到的互信基础。

Claude 3.5 → 3.6 → 3.7

“Claude 3.5new 被外界叫 3.6，是因为 Anthropic 早期没产品能力——两个模型都叫一个名字（3.5），后来自己被迫接受外部给的 3.6 叫法。所以实际产品线是 3.5 → 3.5new（=3.6）→ 3.7。”
Claude 3 发布后 Twitter 上就有人发现它编码比 GPT-4 强；“这是 Anthropic 押注编程的一个信号来源，但最初可能是随机试出来的——纯粹技术原因，先自下而上冒出来，后来自上而下 all-in。”
3.7 是 Anthropic 后训练（post-training）的分水岭：之前 post-training 是”打补丁”模式；3.7 之后才真正大规模 RL。
“在我加入时，大家已经知道要做大规模 RL，但不知道具体怎么做。” 2024 年 8–9 月，o1 还没发布，只知道 OpenAI 有个神秘项目叫 Strawberry。
真正的秘诀（他能公开谈的部分）：“把简单的事做得比所有人都干净。” RL 最简单的算法是 policy gradient，有很多复杂的算法但会带来 infra 难题；如何 trade-off 这些 detail 才是真正的 expertise。
他的一个重要观察：“很多 trick 其实没用。” 不同公司 sampler 和 trainer 的 numerical 差异依赖各自 infra，所以”你照抄别人的算法不一定有用——算法是整个系统的一部分”。”这就是我为什么不爱回答别人问 Anthropic / Gemini 怎么做——回答会误导他们。”

3.7 → 4.5

他离开时 Anthropic 已经接近 2000 人（比他加入时翻倍以上）。
“我赶上了小公司的尾声”——三四个月后公司突然变大，文化开始混乱，”有些从外面进来的人带来和原文化的冲突”。
他不喜欢的人：“我觉得 ‘ideas are cheap’。真正难的是 implementation。我不喜欢那种每天大部分时间泡在 Slack 里谈 grand principles 的人——没什么用。”（笑）

离职原因

主因：想学不一样的东西。”Anthropic 非常聚焦，只做语言模型相关，不做多模态生成、不太做底层工程和 infra——我想学这些。”
约 40% 原因：不认同 Dario 的反华立场。”作为 CEO 个人他怎么想都可以，但把这种观点推到如此极端，是非常情绪化的反应。”
40% 不是主因，但也不是无关紧要，更不是**”控股股东的原因”**。（笑）
对 Anthropic 未来的看法（离开时）：悲观——“API 卖 token 是门烂生意，价格战会来，只有谷歌能赢（供应链优势）。”但后来证明他太悲观了，Anthropic 在产品层面做得非常好（Claude Code、Cowork 等）。
被问会不会后悔：”不太会。我的动机是换位置学东西。”
Claude Code 的诞生：“那几乎是当代少有的、还展现个人英雄主义的时刻。” 创始人 Boris Cherny（字幕译为”鲍里斯·切尔尼”）本来只是想给自己和同事提效，最后变成了整个产品。”很可能是和抖音同级别的交互层面变革产品。”

关于”英雄主义已经过去了”

这是贯穿访谈的核心观点之一：

“个人英雄主义在语言模型领域可能已经过去了——也就是 Transformer 那个时刻之后。”

“现在大家都是冲浪的人，本质上是那个浪，而不是你那个冲浪的人。”

“没有英雄，有时候甚至觉得旧时代的英雄有点蠢。”

“我对任何模型的贡献，我的 statement 永远是：我自己对那件事没那么重要；更多是我很幸运，有机会在那时候加入了一个重要项目，做了一些事。”

他特别指出：编程上 Anthropic 的成功确实还有”公司级英雄主义”（敢不敢赌、赌得够不够快），但模型内部的每个技术细节都是集体的。

对 AI Safety 的批评（非常犀利）：

Anthropic 成立的初衷是 AI safety，但又要训练前沿模型——Anthropic 自己的解释是”必须做最强的模型才有话语权推动 safety 议程”。
**”这个想法非常天真——**现在看来这不可能发生。更可能的结果是所有人都有强大前沿模型，没人能阻止任何事。”
真正的机制类比是 核武器：多方持有、互相威慑——“靠一家公司自我立法去规制是不可控的——它只能自我规制，但自我规制等于没规制。”
对 Anthropic 可解释性团队：只在非常稀疏、小的网络上有有趣进展，实用语言模型层面还没达到”神经外科级别”。

十三、”AI 本质是简单的”（2:35:03）

核心命题：“AI 本质是简单的。”（他强调这是 statement 不是 conclusion）

解释：

因为你可以做实验。相比物理（能量尺度限制了实验数据），AI 不受这种约束——想做什么实验都能做，只是需要时间扩算力、准备 infra，但没有根本性困难。
“AI 不会给人撞墙的感觉，不是因为方法穷尽了，而是因为想法太多了，挨个试不过来。”
未来 6–12 个月 AI 会开始自己做实验——不是只写代码，而是运行实验 → 分析结果 → 提出新假设 → 设计新代码 → 跑新实验，这条链会逐渐闭合。

十四、在 Google DeepMind 训练 Gemini 3（2:41:10）

加入 DeepMind 的理由

反对那种”研究员离开大厂加入小厂”的惯性——他反其道而行，因为他当时想要”学更多、更广”。
“如果你真想把某个想法塞进最终产品模型里，谷歌可能是非常烂的地方；但如果你要的是研究自由、广阔视野，世界上找不到比 Gemini 更强的第二名。”
加入时点（2025 年 9 月底）已经看好 Gemini——Gemini 2.5 那代让业内意识到”Google 正在搞明白”。
他是因为个人联系被挖进去的，双向选择。
为什么没去 OpenAI？“文化让我非常担心。直白说，真正能把事做成的人没 Gemini 那么多，甚至比 Anthropic 还少。”（笑）内部政治斗争也开始显现。
xAI：“我不理解。”（笑）”接触过的人后来都走了，我也不知道他们现在怎么样。”

Gemini 3 的转折点

Gemini 3 和 Nano Banana 两次叠加才是真正的转折点：Nano Banana 把很多新用户引到 Gemini App，Gemini 3 把他们留住。”只有 Gemini 3 不够——市场份额低于 10% 时，模型再好传播也慢。”
Gemini 当前市场份额可能在 20% 左右（他还没精确核查）。
“从局外人角度看，是 OpenAI 救了谷歌的命。” 如果 ChatGPT 当时真的完全吞掉了搜索，谷歌就完蛋了；但 OpenAI 做到了”让谷歌意识到重要性，但没做到吞掉搜索”，让谷歌得以反扑。
Chatbot 为什么没完全吞掉搜索？
1. 搜索有大量”非常蠢”的需求——“我就搜一下在哪买米、哪里点好，不想等聊天机器人转半天最后给个链接还要再点一次。”
2. Chatbot 形态还没达到终点。
“聊天机器人凭什么就是终极形态？过了这么多年，居然还只有一个聊天框，我真的觉得很蠢。”——“需要一个产品经理来解锁模型的全部能力。”（笑）

谷歌内部发生了什么

外部看到模型性能大跳；内部是组织逻辑开始清晰：
- 预训练阶段已经有清晰框架——谁负责哪个 node 非常明确（以前非常混乱）。
- 谷歌工程管理能力极强，预训练已经进入”谷歌的舒适区”，能可控地知道下一代不会坏，甚至能预估好到什么程度。
Anthropic 走自上而下；谷歌仍然相对自下而上，但比过去更偏自上而下。
“不同文化都能 work”——大公司和创业公司的打法本质不同。
谷歌的杀手锏：“找到一个极简的产品表达形式，所有人看起来都一样，然后在技术层面无情地碾压你，你根本竞争不过。” 搜索就是典型例子。
OpenAI 的位置：“现在没人的位置是稳固的。” Chatbot 是否是 super app 的终极形态？—“我完全没有理性答案，但感觉事情还没结束。”
对国内”超级应用”叙事的吐槽：“我真的不懂——大家在抢一个 super app，前提是 chatbot 就是 super app 的形态。但我真的觉得 chatbot 很蠢，终极形态凭什么非是这个？”

谷歌的”英雄”

后台的英雄：Sergey Brin（”重大决定最终还得他拍板”）。
前线的英雄：Koray Kavukcuoglu（Google DeepMind CTO / 谷歌高级副总裁）。
Demis Hassabis 更偏科学方向（Isomorphic Labs 等），Gemini 日常他见到最多的是 Koray。

十五、技术预测和组织搭建（3:01:28）

预训练 vs 后训练

纯技术上两者本质区别不大——最大区别在数据分布：预训练要广（不需要 quality 特别高）；后训练要 窄而精（quality 要求极高）。
不同实验室组织方式：
- Anthropic / Gemini：pre-train 和 post-train 分两支队伍。
- OpenAI：更混乱——最早三队（pre-train、RL “Strawberry”、post-train），而且他们的 post-train 本身就是产品团队，”训模型的人也参与产品”。

对”下一个范式转变”的判断

大概率不是范式级变化，但对谷歌特别有价值的两件事：
1. 机器学习编码（ML coding）：让 AI 能加速 AI 自身的研究闭环——谷歌是 AI 研究最完整平台（硬件 + 连接 + 模型），这件事对谷歌价值巨大。
2. 长远规划 / 长时程（long horizon）：每个人都觉得重要。
对实现方向：
- 预训练侧：sparse attention（稀疏注意力，DeepSeek 和学术界都在做）。
- 后训练侧：类似 Cursor 那种外部上下文管理（让模型选择保留或扔掉哪部分）。
- 两者本质相同——上下文 token 的 KV cache 也是一种权重。
“**一万个人有一万种’世界模型’**的定义。Gemini 的世界模型更像端到端训练（条件生成下一刻场景）；李飞飞那种是另一回事——我不太懂她们实验室在做什么。”
Continual learning（持续学习）和 long horizon 本质没区别。
他主要精力在后训练方法（预训练不做正式工作）。
“Gemini 在 long context 上的一些技巧真的让我惊讶。”（笑）

AI 人才稀缺性质疑

高薪是因为大家觉得稀缺，但**”可能没那么稀缺——训练一个人不难，只是你需要遇到做这件事的环境。过去有这种机会的人不多，所以市场上相对稀缺。另一方面，可能对某些人的吹捧也过头了，大家特别爱神话某些人。”**

他设计的面试题（可公开）

要求候选人 24 小时从零做一个 RL 项目——自己选模型、数据、算法，然后和他讨论一小时。
两个目的：
1. 看候选人与 AI 合作的能力（现在写代码本身不再稀缺）——有个陷阱：如果完全把活丢给 AI 自己不理解，讨论一小时就暴露了。
2. “24 小时限制是看他重不重视这个机会——能不能熬夜。不重视的人连这 24 小时都熬不住。“（笑）”这里面还有些阴暗的小巧思。”

工程 vs 科学

“谷歌的预训练现在已经变成工程项目——自上而下、节点清晰、可评估。这是谷歌的强项。”
后训练不确定性更大，仍是自下而上、每个人尝试不同方法。

组织的核心原则

“系统稳固 + 个人英雄不闪耀” 与 “允许个人英雄闪耀但系统脆弱” 的 trade-off。
他倾向前者——“系统不稳固的一个例子就是 OpenAI：一个人走，整个结构就可能塌。”
对自己的要求：“研究员必须为整体考虑，不然不是好研究员。在学术界是’一人吃饱全家不愁’；在公司里你要对公司负责——这是两种完全不同的心态。”
他承认：”我可能就是拉不下脸——既然签了合约，我觉得不按合约做没什么道理。”

TPU vs GPU

大规模商业部署上没有优劣差异。开源生态 GPU 更好，但这对大规模部署不是瓶颈。
设计理念不同：
- GPU（尤其 Hopper 一代）：单 pod 内 NVLink 带宽极高，但 pod 内卡少（8 张）。
- TPU：放弃卡间两两互联，用 3D Torus 拓扑把更多卡组成一个大 rack，每张卡只与 3 个最近邻相连。如果编译器/分片写得好，总内存容量更大、通信瓶颈更少。
TPU 缺点：小规模用不灵活、通用性差。

对 xAI 的评价

简短、尖锐：“我不理解。他们一直都挺动荡的。”（笑）

十六、集体主义胜利（3:23:33）

对新实验室潮的吐槽

最近硅谷一堆新 AI 实验室：”绝大多数新实验室会倒闭。“
Thinking Machines 还在持续出新东西；但某些新实验室（后期消音）——“我完全不知道他们想干嘛，创始人其实已经离开赛场很久了。”

中美路线分化

中美已分道扬镳。中国优势在消费侧：
- “中国能想出非常复杂、看起来很不自然的产品结构，让利润滚雪球——抖音你看视频不收 0.2 美元，但偷偷加广告、直播、电商。”
- 美国这种玩法玩不转——“生产力软件：我帮你写代码，150 成本，200 卖给你，我赚 50，就这么简单。”
“Meta 就应该直接抄字节跳动——它又找不到自己的定位，做消费产品的能力又远不如字节。但美国过去十年有个正反馈循环：B2B 太容易赚钱，大家都不想烧脑研究如何赚消费端的钱。”

AI 人工神话

“我进这个行业的时候，个人英雄主义时代已经过去了——所以没有英雄。”
“没有哪个老登是你的亲戚——所以你觉得他傻，他就是傻，可以直接说他傻，无所谓。”（笑）
为什么敢这么讲？
1. “我在这个行业没有什么导师，没有什么旧友，我当然想喷谁就喷谁。”
2. “这个领域足够客观——你在这个领域做得怎么样是有客观评价标准的，最终大家会尊重你。只要你观点自洽、不是乱喷，不用太担心因为观点得罪谁。”
为什么来 AI：“AI 这个事本来也不太需要脑子，真的不太需要脑子。这个行业最重要的特质就是靠谱、做事细、对自己做的事情负责任。” 在物理里，他见过比自己聪明得多的人（比如他的博士导师 Douglas Stanford）——“他在那里，哪还需要我？”
对旧时代 AI”英雄”的评价（点名后期消音，但线索明显）：
- XXX（某位以模糊表述见长的人）“我觉得他一直都挺蠢的”——“用 Pauli 的话说，他甚至不能算错，因为他说的东西都没有明确定义——我最讨厌这种模糊的人，模糊的东西没有意义。“
- 他愿意承认的英雄：
  - Haldane（霍尔丹，凝聚态物理拓扑态的奠基人）——“他第一次提出 Haldane model 和分数量子霍尔相关的东西，离后来整个领域搞明白拓扑态还隔了几十年，但他当时就能感觉到这件事重要，一直推动。”
  - Geoffrey Hinton（字幕译为”杰弗里·辛顿”）——“在大家都觉得 AI 这条路不确定时，他一直朝这个方向。这或许是英雄级别的人物。”
  - Transformer 集体（Noam Shazeer、Ashish Vaswani、Niki Parmar 等）——“这可能是一个英雄集体。”
对”老登”（中文网络对守旧老年男性的贬称）的态度：
- “大多数老登其实挺好的——人老了会分成两种：一种是德高望重、不再挑刺、真正指导年轻人；另一种是根本不知道自己在说什么，还特别爱挑刺和对人指手画脚。变老不一定就是老登。“
- 他不是一开始就这么直接的——“学生时代比较克制，但后来发现克制对自己没好处，对别人也没好处。进 AI 之后变得更直接——没有任何东西会阻挡我，而且这个领域足够客观。”

给年轻人的建议

纯语言模型方向：“蓝海已经不是蓝海了，我赶上了末班车。”
但 AI 是非常大的领域——多模态生成、机器人、用 AI 解决实际科学问题（如量子控制）都还是蓝海。
“对足够年轻的人，做现在最热的事未必是对的；做没人做的事，可能是更好的选择。”

关于自己的未来

不会在谷歌长留（”如此公开地表达这一点——我觉得可能不会。”）。
“我还是会去挑战自己，需要折磨自己，只是得先找到值得折磨自己的东西。”
不太可能再跳大厂；也没想做 AI for Physics——“很多人已经在做，多我一个不多，少我一个不少。”
当前首要任务：把 ML coding 和 long horizon 推到相对稳定的状态。

最后一问：”关键的赌注是什么？”

“Long horizon.（长时程）”

补充：几个交叉验证与背景注释

离职 Anthropic 原因的对照：姚顺宇在个人博客（alfredyao.github.io）的说法与访谈一致——强调”不想让自己的经验被特定实验室局限，尤其现在核心研究很少发表论文”。访谈中他直接说出 约 40% 是反对 Dario 反华立场，这在其博客和 36kr、新智元等公开报道中也有交叉证据。
参与的模型的可靠性：36kr 报道证实他参与了 Claude 3.7（agentic coding）和 Claude 4 family（RL numerics）；Gemini 3 Deep Think 的参与也有谷歌自家公告确认。
非厄米趋肤效应：访谈中他描述的”周期/开放边界结果完全对不上、本征态全部堆积在边界”正是 PRL 论文 Edge States and Topological Invariants of Non-Hermitian Systems（Yao & Wang 2018）的核心发现，与本人描述完全吻合——字幕里的”王忠”实为王中（Zhong Wang），张守成/寿城实为张首晟（Shoucheng Zhang）。
博士导师：Douglas Stanford 和 Stephen Shenker 是 Stanford Institute for Theoretical Physics 的顶级高能/量子引力学家，访谈中他特别说 Douglas Stanford “比我聪明得多”——是真诚的敬畏。
“Claude 3.6 其实是 3.5 new”：这点与 Anthropic 官方命名历史一致，外部社区确实因 Claude 3.5 出了两个版本而自发叫后者”3.6”。
节目录制时间（2026 年 3 月）与发布时间（2026 年 5 月）之间已发生：Meta 对 Manus 收购被撤销、Cursor 可能被 SpaceX 收购、xAI 并入 SpaceX——文中相关表述按录制时状态保留，访谈中嘉宾对 xAI 的吐槽（”一直挺动荡”）反而被事态坐实。

核心观点速览

维度	姚顺宇的判断
预训练	远没到头，过去几个月一直在变强；觉得撞墙多半是代码 bug 没找到
后训练	真正大规模化始于 Claude 3.7；关键在数据分布是窄而精
Coding	爆发源于奖励信号清晰 + GitHub 数据基座；已是 AI-native 唯一大规模成功场景
机器人/多模态生成	都还没到 GPT-1 阶段，还在特征工程时代
Chatbot 形态	蠢，远不是终极形态，需要产品经理解锁
Wrapper 生存	要么成长够快（Cursor），要么市场够小（Midjourney）；否则都被收购
AI 安全	Anthropic 的”造最强模型才有话语权”太天真；真正的机制类比是核武器多方威慑
蒸馏	硬蒸可耻且蠢；软蒸是 multi-agent 训练的先驱，技术上有趣
组织	系统稳固 > 个人英雄闪耀；OpenAI 是反例
英雄主义	语言模型领域已经过去；现在都是冲浪者，本质是那个浪
AI 本质	简单——因为可以做实验，受限的只是算力和 infra，无根本困难
给年轻人	语言模型蓝海已过；做没人做的事
个人风格	直接、可以喷人、”老登不是你亲戚”、拒绝模糊表述