Podcast thumbnail for 卫诗婕|商业漫谈Jane's talk

卫诗婕|商业漫谈Jane's talk

Claim This Podcast

by 卫诗婕

77 episodes
Updated Daily
Accepts GuestsHas SponsorsLocation 🇨🇳

Podcast Overview

更有生命力的科技商业访谈。 Explore better tech reading. Hello~如果是新朋友,推荐几期具代表性的必听节目:1.感受创始人访谈的魅力——第40期(影石JK)、第51期(Plaud许高)、第34期(fellou谢扬);2.感受商业和良知的魅力——第24期医改与集采(必听)、第28期英伟达、第25期聊回购。相信听完这几期,会对这档节目的定位——做最有生命力的科技商业访谈——有更具象的认知。(公众号、各平台视频账号同名) 我是诗婕,做过社会调查、特稿记者、科技媒体主编。关注科技商业进步与公共利益~我会把自己持续学习的过程开源给大家,在这里也能学习AI、具身智能、全球化等前沿领域。在这里,点亮科技星空。 希望一起描绘、定义、推动一个更美好的世界。:) ———— 关于诗婕:虎嗅2024年度作者、金字节奖年度新锐作者、网易非虚构文学奖年度作者、全球真实故事奖TSA(True Story Award)。 合作洽谈 👉 微信:SJ_Jelyne(添加请备注身份+事由) 听友读者互动,欢迎加入听友群(每期节目简介会更新群二维码)

Language

🇨🇳

Publishing Since

4/26/2024

1 verified contact email on file for 卫诗婕|商业漫谈Jane's talk

Pitch yourself as a guest, propose sponsorships, or reach out directly to the host.

Recent Episodes

Episode thumbnail for 77.有关智元、觅蜂的愿景与野心,和具身智能的竞速之旅|与姚卯青的对谈

June 16, 2026

77.有关智元、觅蜂的愿景与野心,和具身智能的竞速之旅|与姚卯青的对谈

<img src="https://image.xyzcdn.net/FjzudYkK1I0jlR8zgroIJavM5oyi.jpg"><p>2026 年,具身智能成为了聪明人扎堆、资本热潮近乎疯狂的行业。这条热门赛道中,<strong>智元机器人是最早的百亿俱乐部成员之一。</strong></p><p>在人形机器人出货量狂奔的路上,智元的野心并不止于“具身本体”的军备竞赛。今年,他们做出了一个让全行业瞩目的反哺举措:<strong>将旗下的核心数据资产彻底剥离,独立孵化了全球领先的一站式物理 AI 数据服务平台——“觅蜂”。</strong></p><p>本期嘉宾<strong>姚卯青,不仅是智元合伙人、具身业务部总裁,也兼任觅蜂的董事长兼CEO</strong>。这期播客在五月觅蜂发布会后录制,或许是<strong>有关智元战略的,最深入完整的一次访谈。</strong></p><img src="https://image.xyzcdn.net/FqQ3wgimBKEq9BlCD8vkzh9yd0ty.jpg"><p>(本期视频的微博开屏页,欢迎前往微博等平台观看视频版~;也欢迎前往公众号,查看「漫谈Light the Star」访谈的文字版~)</p><p>从Waymo到蔚来再到智元,姚院亲历过自动驾驶从概念到量产的全过程,他说“<strong>今天的具身智能连GPT1都没到”,而机器人离真正涌现智能,还差一亿小时的数据。</strong></p><p><strong>本期嘉宾: 姚卯青</strong>(智元合伙人、通用业务部总裁, 觅蜂董事长兼 CEO)</p><h2><strong>本期 Shownotes:</strong></h2><h2>Part 1. <a class="timestamp">02:40</a> 关于姚卯青:从清华电子系到南加大,从 Waymo到蔚来</h2><ul><li><p>「人间清醒」与「顺势而为」</p></li><li><p>清华电子系的系统训练:电路、通信、信号处理、计算机视觉、编程和算法,都是自动驾驶和具身智能的底层能力</p></li><li><p>Google Display Ads 团队:计算机视觉、NLP 与 Transformer</p></li><li><p>内部转岗 Waymo:可能是当时全球最难的面试</p></li><li><p>Waymo 的三年: Robotaxi, 从技术 demo 走向商业化运营</p></li></ul><h2>Part 2. <a class="timestamp">17:28</a> 蔚来的量产课:激光雷达、车规体系和数据飞轮</h2><ul><li><p>为什么选择蔚来? 「单平台、全标配」的产品策略,激光雷达、4K 相机和高算力硬件一体的统一底座</p></li><li><p>蔚来李斌:「被人骂也是被记住的一种方式」——做关键决策需要勇气</p></li><li><p>多模态融合感知、激光雷达感知、BEV、Occupancy Network、AEB …关于自动驾驶的种种</p></li><li><p>选择回国:相比 Waymo 的几百辆 Robotaxi,国内乘用车百万级保有量所带来的数据分布和 corner case 密度,是完全不同的飞轮</p></li><li><p>量产经验到底是什么?「不是把样机多复制几台,而是项目、研发、测试、供应链、质量、版本和数据闭环的组织能力。」</p></li><li><p>能迁移到机器人的是什么?异常数据回流、模型迭代和现场版本下发</p></li></ul><h2>Part 3. <a class="timestamp">28:31</a> 当自动驾驶派进入具身:优势不是算法,而是底座</h2><ul><li><p>自动驾驶派进入具身智能,最大的价值是理解强电系统、供应链、质量、量产和底层软件稳定性</p></li><li><p>机器人和车,在电子电气架构、操作系统、中间件、传感器输入到电机控制等底层工程上高度相通。</p></li><li><p>车就是最简单的机器人?「有点牵强」</p></li><li><p>在很多低速场景中,机器人反而更有机会部署 VLA、世界模型等前沿模型</p></li><li><p>真正稀缺的人才,不只是刷榜或发 paper 的人,而是上手修过 bug、和硬件软件都打过仗、能把复杂系统跑稳定的人</p></li><li><p>具身创业的三大派,都有不可替代性</p></li><li><p>机器人终局架构不会只是「快慢系统」两层,可能包含: 1000Hz 底层控制、10 到 20Hz 动作规划、1 到 2Hz 阶段目标规划,以及更高层的 Agent 长程推理。</p></li></ul><h2>Part 4. <a class="timestamp">35:19</a> 讲「基模」太早了,具身连 GPT 1 都没到呢!</h2><ul><li><p>「2026 年了,具身智能到底到 GPT 几了?其实 1 都没到呢」</p></li><li><p>「现阶段的真机数据量,和真正支撑基座模型涌现的数据规模,还差四五个数量级」</p></li><li><p>很多公司强调自己做「具身基模」,是借用了大语言模型时代的资本叙事</p></li><li><p>今天的具身更像 Transformer 和 BERT 早期,而不是 GPT-3 之后</p></li><li><p>数据的关键不仅是「量」,还包括信息维度、场景种类、失败样本和真实部署中的边界样本</p></li><li><p>多模态融合是必然趋势,视觉远远不够</p></li><li><p>真正的瓶颈不是算法是否足够聪明,而是真实世界数据的量、模态、场景和失败样本远远不够</p></li></ul><h2>Part 5. <a class="timestamp">49:59</a> 有关智元最完整的战略揭秘:一家 AI 公司,而不只是机器人公司</h2><ul><li><p>神秘的邓泰华其人</p></li><li><p>智元Day 1 定位成 AI 公司,而非单纯的人形机器人公司</p></li><li><p>人形机器人是把 AI 带入物理世界的必要载体,但不是终点</p></li><li><p>「智元确实是这个行业里最有野心的公司之一」</p></li><li><p>智元的组织架构、融资节奏与股权激励</p></li><li><p>具身公司的长期价值不只在本体硬件,而在能否把「本体、数据、模型、场景」做成闭环。</p></li><li><p>精灵 G2 所经历的完整 IPD 流程:接近 9 个月</p></li><li><p>机器人行业的需求峰谷比汽车更剧烈</p></li><li><p>工业不相信眼泪,最终都是 ROI:「」工业客户不关心你是人形、猴形还是狗形」</p></li><li><p>智元的「358 战略」:从量产、商用到部署</p></li><li><p>具身智能最终不是单点技术竞赛,而是系统工程。</p></li><li><p>当技术路线逐步收敛、场景开始渗透时,先把 90% 的体系能力构建好,才可能真正承接行业机会。</p></li></ul><h2>Part 6. <a class="timestamp">01:55:26</a> VLA、世界模型和机器人数据飞轮</h2><ul><li><p>智元的 AI 研发体系:模仿学习、VLA 预训练、世界模型、强化学习后训练和数据闭环</p></li><li><p>Google PaLM-E :VLA 来自语言模型和多模态语言模型向物理世界的迁移</p></li><li><p>世界模型更像对物理规律和状态转移的数字化、神经网络化描述</p></li><li><p>「VLA 和世界模型都不是最终形态,未来更可能是分层架构」:<s>前者受限于语言和动作之间的表征鸿沟,后者仍更多来自二维视频和第三人称视角</s></p></li><li><p><s>:语言推理、物理预测、低层控制、长程规划和数据飞轮共同工作</s></p></li><li><p>世界模型的价值在于学习液体流动、玻璃破碎、软体形变等真实物理规律</p></li><li><p>「后训练和失败数据非常关键」</p></li></ul><h2>Part 7. <a class="timestamp">02:08:49</a> 觅蜂:具身版 Scale AI,机器人数据界的「滴滴」</h2><ul><li><p>投资人的主意:对标上一轮 AI 时代的 Scale AI ?</p></li><li><p>具身数据生意比传统数字世界标注难得多</p></li><li><p>2026 :具身数据军备竞赛年</p></li><li><p>模型的差异化暂时不大,数据会是分水岭</p></li><li><p>打造一个公共性质的数据服务平台,一个「阳谋」:客户花钱带来数据需求,平台用数据训练模型,模型再反哺采集、预标注和质量管理效率</p></li><li><p>数据问题都没解决,讲基模预训练、后训练,都是空中楼阁</p></li><li><p>高质量数据的第一点是真实:场景和任务必须足够丰富,能够覆盖生活和生产中真正会遇到的问题</p></li><li><p>规范:相机曝光、画质、设备同步、轨迹重建精度、操作流程都要高标准</p></li><li><p>「脏数据」不是质量差的数据,而是包含失败、偏移、纠错、重新规划和最终成功的多样化数据</p></li><li><p>仿真数据并不天然低价值</p></li><li><p>关键不是流派,而是任务、场景、成功率要求和模型使用方式</p></li><li><p>数据的价格、产能和全球化</p></li><li><p>Deepmind 和 Genralist:「如果数据是具身智能竞争的唯一决定变量,中国公司现在就可以宣布他们是赢家」</p></li><li><p>As many as possible, as soon as possible(越多越好,越快越好).</p></li></ul><h2>Part 8. <a class="timestamp">02:43:43</a> 从数据标准,到 G3-G4 中间态</h2><ul><li><p>好的数据标准会逐步收敛</p></li><li><p>即使不同机器人硬件不统一,很多数据仍可以被抽象为通用表达,如末端执行器轨迹、二维帧序列、物理状态变化等</p></li><li><p>机器人行业的安全和质量准入标准,会在两到三年内伴随大规模商用逐步出现。</p></li><li><p>从 G1 到 G5 ,当前行业大约处在 G3 到 G4 的中间态</p></li><li><p>预计 2027 到 2028 年行业有希望达到 1 亿小时级数据规模</p></li><li><p>真正类似语言模型那种涌现能力,还需到 1 亿小时级高质量数据出现</p></li></ul><h2>Part 9. <a class="timestamp">02:54:42</a> 最期待的画面:机器人第一次让人觉得「觉醒了」</h2><ul><li><p>机器人出现真正的 aha moment:不再只是从画面到动作的肌肉映射,而是能在复杂环境里自主规划、理解指令、做出响应</p></li><li><p>涌现时刻大概率发生在实验室,而不是工厂</p></li><li><p>数据会成为这一轮智能化转型关键基础设施,但它比算力更难获取</p></li></ul><p>加入听友群⬇️</p><img src="https://image.xyzcdn.net/FhdyQAZmn3DhlVsOr6Q37MvYElKK.jpg"><p></p><br><a href="https://oia.xiaoyuzhoufm.com/player/6a301a8543a22a6955845417?openTranscript=true&utm_source=rss&as=cHQ9MTIyNjE5MjQ3JmN0PXJzcyZtdD04&autoOpen=false">在小宇宙查看该单集文稿</a>

Episode thumbnail for 76.与 00 后创业者源培的访谈:从 RoboMaster 到李飞飞实验室、两次「全球首次」,与自由快乐的非标人生

June 12, 2026

76.与 00 后创业者源培的访谈:从 RoboMaster 到李飞飞实验室、两次「全球首次」,与自由快乐的非标人生

<img src="https://image.xyzcdn.net/FjzudYkK1I0jlR8zgroIJavM5oyi.jpg"><p>AI 原生一代,将写下怎样的新故事。这是这一轮 AI 浪潮以来,投资人们最关心的问题。</p><p>今天的访谈嘉宾,是 00 后具身创业者,陈源培。</p><p>他曾在斯坦福李飞飞的实验室,实现了<strong>全球首次双臂长程灵巧操作,以及全球首次「用人类数据训练机器人双臂灵巧操作」。</strong></p><p>土木工程本科出身的他,高考前一天还在打游戏,却通过 Robomaster的比赛结缘机器人,并跨界师从北大强化学习专家杨耀东,成为强化学习的前沿学者,继而进入斯坦福李飞飞的实验室,做出全球首创的成果。</p><p>相比「天才少年」叙事,这期更值得品味的,是<strong>一个一再印证,学习没有固定范式、创新没有标准答案的故事。以及开放、多元、包容和谦卑的学术品味与视野。</strong></p><p><strong>无论游戏、RoboMaster、科研,在源培那里都有一条共同线索:它们都像升级打怪,靠快速学习、持续探索和反馈提升能力。希望其中的思考方式,能给大家启发。</strong></p><img src="https://image.xyzcdn.net/FsmP2Yj6yc8WRHPcPuRrY3owxo3-.jpg"><p>(本期视频欢迎前往 b 站、视频号、小红书、Youtube 等平台观看~)</p><p></p><p><strong>本期嘉宾:陈源培,灵初智能联合创始人</strong></p><p><strong>本期 Shownotes:</strong></p><h2><a class="timestamp"><strong>02:51</strong></a><strong> 从游戏到 RoboMaster:工程能力从系统里长出来</strong></h2><ul><li><p>高考前还在打牌的 00 后:通宵打游戏,差点被选去电竞青训</p></li><li><p>父母最大的影响是「完全不管我」</p></li><li><p>大疆 RoboMaster 冠军:机械、电控、嵌入式、上位机、控制、算法…训练的是复合能力</p></li><li><p>深入代码底层,不会并不是一个门槛</p></li><li><p>机器人并不是单点算法问题,全栈系统思维是稀缺的</p></li><li><p>工程性的东西,更多看的是细心程度与快速学习能力</p></li><li><p>俄乌战争给源培的「觉醒」——突然觉得发 paper 、抠创新点,对世界没什么帮助</p></li></ul><h2><a class="timestamp"><strong>16:41</strong></a><strong> 师从杨耀东,最早 Isaac 使用者与并行仿真</strong></h2><ul><li><p>师从强化学习知名学者杨耀东,用强化学习做灵巧手</p></li><li><p>零帧起手强化学习</p></li><li><p>OpenAI 的 Shadow Hand (2019)的解散,强化学习解魔方——酷但昂贵</p></li><li><p>「我是英伟达 Issac 最早的使用者」「那个版本应该绝版了」</p></li><li><p>「未来用 GPU 做仿真,一定是大势所趋」</p></li><li><p>首篇论文即震撼行业:高自由度操作可以在大规模并行仿真中训练出来</p></li></ul><h2><a class="timestamp"><strong>35:05</strong></a><strong> 强化学习 vs 模仿学习,什么是训练直觉?</strong></h2><ul><li><p>强化学习的峰回路转:监督学习和模仿学习的短期效果让强化学习一度被质疑;直到O1 等方向又重新证明了强化学习的价值</p></li><li><p>模仿学习见效快,但泛化弱;强化学习潜力大,但极吃 Know-how</p></li><li><p>模仿学习不是未来</p></li><li><p>从人手中心到物体中心:描述物体轨迹如何变化,让机器人知道大致目标,再在小范围里探索</p></li><li><p>奖励不需要把每个动作写死,需要留有空间任 AI 自己探索</p></li><li><p>真正的系统能力是「方法都告诉你了,但你调不出同样效果」</p></li><li><p>我训强化学习还挺厉害的:「基本上大家以前都看曲线,只有我是打开仿真,盯着机器人学习。」</p></li></ul><h2><a class="timestamp"><strong>43:37</strong></a><strong> 进入斯坦福李飞飞实验室:从强化学习中心主义,到多元的学术视野,与技术地图</strong></h2><ul><li><p>每条路线都有价值,未来更可能是吸收各自优点的融合过程</p></li><li><p>更开放的研究氛围:连接图形学、灵巧手、模仿学习、人类数据</p></li><li><p>师从 Karen Liu :把机器人操作、动捕、人类数据和仿真强化学习连接起来</p></li><li><p>不要太 Ego,不要靠形容词证明强,让结果本身说话</p></li><li><p>一周可以水一篇顶会的代价是放弃自己其他可能性</p></li><li><p>「从斯坦福回来后,他像变了个人一样」</p></li></ul><h2><a class="timestamp"><strong>50:51</strong></a><strong> 跳出舒适区 + 螺旋上升的具身技术史</strong></h2><ul><li><p>具身技术发展的螺旋:抓取→ CV+模板 → 直接学轨迹(模仿)→ 人遥操太慢 → 强化学习自己探索 → 仿真效率低→ Isaac Gym 并行仿真+Sim-to-Real → Sim2Real Gap 太大→ 软体场景模仿学习反超(Diffusion Policy/ACT)→模仿学习也不够→ 后面接强化学习→世界模型起来后,又回到仿真训 RL</p></li><li><p>灵巧手最大的价值,不是因为它像人,而是因为它最容易吃下人类操作数据</p></li><li><p>与夹爪或专用末端执行器相比,五指手和人手之间的 Embodiment Gap 更小,更适合做 Human-Centric 数据采集</p></li><li><p>「以物体为中心」的通用表征:操作的本质是让物体沿某条轨迹发生变化,而不是复刻人的每个关节动作</p></li><li><p>具身 Scaling Law 的核心可能不在遥操数据,而在人类日常操作数据;</p></li><li><p>硬件形态本身会决定能吃下什么样的数据</p></li><li><p>Sequential Dexterity 的祛魅:学术需要 novelty,这没太大意义</p></li></ul><h2><a class="timestamp"><strong>58:26</strong></a><strong> 仿真派的价值和上限</strong></h2><ul><li><p>我曾经就是个仿真派</p></li><li><p>仿真无法根本解决真实世界复杂交互,尤其在软体、碰撞、接触和高精度成功率方面</p></li><li><p>可微仿真和世界模型都试图缩小 Sim2Real Gap,但目前仍受限于算力、图形学、物理交互和数据量</p></li><li><p>仿真 vs 真机,谁快?仿真的场景 Scaling 能力未必比真实世界快</p></li><li><p>仿真可以做出很 Fancy 的 Demo,但不是当前可见的终局</p></li><li><p>如果世界模型足够强到生成全场景仿真,它本身也需要先吃下海量真实数据——如果做出了世界模型,那肯定先做出了好用的 VLA</p></li><li><p>一个研究者最重要的能力不是在舒适区里把"已经会的事"做得更深,而是逼自己跳到不熟悉的方向;这一点反人性反惰性,因为你在擅长的方向也确实有想探索的东西</p></li></ul><h2><a class="timestamp"><strong>01:17:02</strong></a><strong> 具身 Scaling Law 会撞上硬件问题</strong></h2><ul><li><p>具身 Scaling Law 的核心问题是数据,单靠遥操数据很难堆到足够规模</p></li><li><p>百万小时级别的人类中心数据,至少能让行业看到一些效果</p></li><li><p>「我是实用主义派」</p></li><li><p>与语言模型不同,具身智能会遇到硬件差异:不同手、不同本体、不同自由度都会影响数据和模型泛化</p></li><li><p>跨本体泛化的关键,是提取人类操作中通用的信息,再用强化学习补足机器人具体关节、力和接触细节</p></li><li><p>语言模型可以在统一的 token 空间里 Scaling,具身智能必须同时解决数据规模和硬件本体差异</p></li></ul><h2><a class="timestamp"><strong>01:22:12</strong></a><strong> 创业后的路线选择:先坚定,再快速调整</strong></h2><ul><li><p>2024 创立灵初时,市场上很少有人强调灵巧手操作和强化学习</p></li><li><p>择做长程灵巧操作、强化学习、人类中心数据和双手路线,对于一家创业公司,是信仰和耐心的考验</p></li><li><p>要去做别人做不到的事</p></li><li><p>当前的路线没有不能复刻的,都不够本质:但仍然保持灵活,可快速调整</p></li><li><p>具身创业的难点是同时平衡商业化和预研,短期场景可以做,但公司不能忘记自己到底是不是模型公司</p></li><li><p>「你不能有包袱,最后还是结果说话。」</p></li></ul><h2><a class="timestamp"><strong>01:38:04</strong></a><strong> 世界模型、VLA 和算法口号的泡沫</strong></h2><ul><li><p>灵初的具身大脑是糅合路线:硬件、采集、数据处理、模型训练和部署,形成端到端闭环</p></li><li><p>模型架构和口号本身不是护城河</p></li><li><p>广义 VLA 只要输入视觉和语言、输出动作即可</p></li><li><p>World Action Model 也只是增加未来帧预测等辅助监督</p></li><li><p>单靠改模型架构、模块连接方式就带来突破性变化,我认为这几乎是不可能的</p></li><li><p>真正重要的是训练范式、数据规模、数据质量和完整 Infra</p></li><li><p>马斯克为什么不喊世界模型——世界模型本身不产生价值,真正产生价值的是它能否在具身、能源、航天或其他真实任务中解决问题</p></li><li><p>具身行业的泡沫:太多人说的和做的不一样,一些投资看不太懂</p></li></ul><h2><a class="timestamp"><strong>01:45:05</strong></a><strong> 主动世界模型:从数据里选择有用信息</strong></h2><ul><li><p>关于「主动世界模型」的思考:机器人需要主动判断哪些信息有用,哪些是噪声</p></li><li><p>世界感知分成客观世界规律、主动选择机制和自身 Policy 三层,其中最缺的是中间那层主动选择</p></li><li><p>数据 Scaling 不是无脑加数据,低信噪比数据可能损害模型能力</p></li><li><p>我是实用主义:脑科学、神经元结构、主动世界模型等想法都可以借鉴,但必须通过效果验证</p></li><li><p>具身下一阶段的底层创新:可能不是继续堆模块,而是找到类似语言模型 next-token prediction 的训练范式</p></li></ul><h2><a class="timestamp"><strong>02:03:15</strong></a><strong> 「我的人生,绝对不可能不快乐!」——兴趣、非标与系统性思维</strong></h2><ul><li><p>不要害怕环境、专业或起点带来的限制,去做自己真正感兴趣的事</p></li><li><p>机器人人才,最重要的三点:追求卓越、系统性思维、不要太 Ego</p></li><li><p>「再垃圾的 paper,也有你可以学习的点!」</p></li><li><p>「我追求的是影响力,对真实世界产生价值的影响力」</p></li><li><p>未被验证的人才和未被验证的路线,可能写下真正的突破</p></li></ul><p>加入听友群⬇️:</p><img src="https://image.xyzcdn.net/Fiov2B4DsDoqP2gdW0zMfG97GVzy.jpg"><p></p><p></p><br><a href="https://oia.xiaoyuzhoufm.com/player/6a2ad70612039c40829adc06?openTranscript=true&utm_source=rss&as=cHQ9MTIyNjE5MjQ3JmN0PXJzcyZtdD04&autoOpen=false">在小宇宙查看该单集文稿</a>

Episode thumbnail for 75.与灵初王启斌聊「灵巧操作」:10 万小时人类数据,一座富矿,与中国具身大脑的另一种叙事

May 29, 2026

75.与灵初王启斌聊「灵巧操作」:10 万小时人类数据,一座富矿,与中国具身大脑的另一种叙事

<img src="https://image.xyzcdn.net/FjzudYkK1I0jlR8zgroIJavM5oyi.jpg"><p>2026 的上半年,中国资本市场围绕具身进行了大规模的布局,将具身大脑这个赛道推向了前所未有的热度。</p><p>这期的嘉宾<strong>灵初智能</strong>,刚刚<strong>登顶了摩根士丹利最新发布的《全球人形机器人研报》,它被视作中国具身大脑阵营的核心代表之一</strong>。从灵巧操作出发,这条大脑路线直指智能的上限。</p><p>创始人王启斌是 70 后产品背景,乔治华盛顿大学博士,完整经历了"智能设备 → 移动机器人 → 具身智能”的三次范式更迭。</p><p>我们的访谈不仅涉及到<strong>大量具身行业的真实进展</strong>,也描绘了在具身这个早期行业中,<strong>从研发(R)到工程(D)到产品(P),</strong>所谓 RDP 的全流程。</p><p>2024 年,<strong>70 后王启斌,和80 后算法老兵柴晓杰、 90 后北大学者杨耀东、00 后天才少年陈源培,组成了灵初智能这支具身“7890 战队”</strong>,成为这个行业背景最豪华的团队之一。</p><img src="https://image.xyzcdn.net/Fl_MqvI6Ol-ZIgKVDd-EyEtXQCPq.png"><p>(本期访谈的视频版已经登录 B 站、视频号、微博、小红书、Youtube 等平台,欢迎前往观看~,文字版可前往公众号「卫诗婕 漫谈 Light the Star」)</p><h2><strong>本期嘉宾:王启斌(Viktor)· 灵初智能创始人</strong></h2><h2><strong>本期 Shownotes:</strong></h2><h3>Part 1. <a class="timestamp">00:00</a>-<a class="timestamp">08:56</a> 让机器人「动手」,为什么是皇冠级的大脑问题?</h3><ul><li><p>灵初是谁?</p></li></ul><blockquote><p>被摩根士丹利视作中国大脑核心代表,灵初是谁?</p><p>Hugging Face 上 1000 小时多模态数据集下载量第一</p><p>希腊字母第 23 个 Psi(Ψ),意指强化学习,「像孩子一样在环境中交互、逐渐长大」</p><p>为什么做大脑的公司普遍估值更高?</p></blockquote><ul><li><p>什么是通用灵巧操作?为什么说人类操作数据是一座富矿?</p></li></ul><blockquote><p>操作的三种能力:对任务做长程语义分解(规划)、手眼协同、实时纠错<br>人类能力的演进顺序:行动最早(灵长类)、视觉次之(寒武纪)、语言最晚——而机器恰好相反<br>机器人不一定像人类那样大脑/小脑严格分开,目前没有完美的大小脑结构能拟合类人能力<br>夹爪很难做类人复杂操作<br><strong>操作知识不具备可传承性</strong>——如何把人类经验挖出来变成可训练的数据,是具身要回答的根本问题</p></blockquote><h3>Part 2. <a class="timestamp">08:56</a>-<a class="timestamp">20:04</a> Why now:具身浪潮,周期与淘汰赛</h3><ul><li><p>2026,具身为什么更热了?</p></li></ul><blockquote><p>「新的浪来了」:过去几波范式不会持续这么长<br>why now 的底层:具身是真正回到物理世界的问题</p><p>具身的市场,只会比智驾更大:上一波公司的顶点,可能是下一代公司的起点</p><p>跑完一个 cycle 约 7 年:至少会有三轮淘汰赛</p></blockquote><ul><li><p>关于王启斌:黑莓vs苹果,一个产品老将经历的范式更迭</p></li></ul><blockquote><p>黑莓曾是全球唯一净利率 25%+ 的公司(另一家是苹果)</p><p>从苹果开始,ToB/ToC 没有绝对分割</p><p>什么是苹果真正的胜负手?</p><p>新世界物种对旧世界的降维打击,是如何发生的?</p><p>「站在旧世界的人不用 complain,这就是宿命。」</p><p>「当年带 Sonos 全球 CEO 见百度陆奇,是我的心结」</p><p>什么样的 ToC 产品能击穿 ToB?苹果做到了。具身领域有机会吗?</p></blockquote><ul><li><p><a class="timestamp">20:04</a> 中美硬件之争,穿越周期的产品经理,与审美</p></li></ul><blockquote><p>审美的物质基础:Jony Ive 的设计传统在英国,小米设计领导人传统在德国,消费电子审美在欧洲<br>Sonos 和 B&amp;O ——两种产品哲学<br>小米生态链/IoT 兴起(2015)后,中国消费电子工业设计的崛起&amp;底层:从整机到核心零部件的全链路掌控 + 快速迭代</p></blockquote><h3>Part 3. 中美硬件之争,两代机器人公司,谁会赢?</h3><ul><li><p>「美国大脑领先、中国硬件领先」,人们只看到了轨迹的起点</p></li></ul><blockquote><p>为什么从泛化性居中、节拍较低的物流和服务业 toB 切入</p><p>5 年内「只做模型不做硬件」是伪命题——具身现处于软硬深度耦合阶段</p><p>落地两种形态:固定上半身、可移动+上半身——两种构型,训同一个模型</p><p>具身的数据飞轮和车完全不同——车有存量市场,具身去年头部出货才 5000 台,飞轮必须靠人类数据冷启动</p></blockquote><ul><li><p>上一代自动化机器人 vs 具身新秀派,谁会赢?</p></li></ul><blockquote><p>上一代移动机器人靠 SLAM(2015 前后)和基于规则的技术,深耕单一场景;当下具身解决更复杂的操作问题,用 learning base 的学习范式,人才完全不同</p><p>三个顶层问题:解决什么问题、用什么技术路线、什么样的人才;</p><p>创新者诅咒:成熟公司有自己的场景循环,可能恰恰是负担</p><p>仓储物流、无人配送领域,全是创业公司赢了(海柔、极智嘉、新石器)——阿里、美团、京东,为什么都落后了?</p><p>「原来真的是书上得来终觉浅……谁有场景谁赢,是个错误。」</p></blockquote><h3>Part 4. 灵初的成立:7890 战队 &amp; 科学家创业潮</h3><blockquote><p>横跨中美,花半年时间找科学家: 国内能做灵巧操作的不超过 10 人</p><p>如何判断科学家是否适合一起创业?</p><p>在斯坦福李飞飞实验室的 00 后联创:强化学习,将人类数据迁移到灵巧操作的 Sim2Real</p><p>「7890 战队」:为什么具身需要的人才跨度大?跨代际和领域的融合难度?</p><p>怎样治理一个软硬数据耦合的复杂组织?</p><p>为什么「量产那套」不完全适用于具身大脑研发?</p><p>AI 时代,为什么强调「治理」而非「管理」?</p><p>硬件派 vs 模型派的路线分野:从硬件出发(做到稳定便宜规模化,特斯拉思路)vs 从模型和数据出发(用优质数据训模型,灵初思路)</p></blockquote><h3>Part 5. <a class="timestamp">01:01:06</a> 具身数据的真问题,与中国的另一种叙事</h3><ul><li><p>可规模化预训练的优质数据长什么样?数据管线怎么做?</p></li></ul><blockquote><p>算力、数据手套与数据飞轮:灵初的真实数据方法论</p><p>什么是检验真做大脑 or 水货大脑公司的金线?</p><p>数据洞察:手的 3D 关节角精确度 &gt; 触觉 &gt; 2D 照片;</p><p>全模态数据,比纯第一人称视频更精确丰富</p><p>行业最大的10 万小时手部多模态数据怎么来?</p><p>数据管线 = 数据处理平台(审核、标注、处理)+ 进训练框架训模型 + 模型反馈 +抽象出数据洞察</p></blockquote><ul><li><p>具身数据乱象:已经出现一些空置的数采场</p></li></ul><blockquote><p>没有模型需求方牵引,数据采集一定是无序、低效、垃圾场级别的</p><p>只有真正在训模型的大脑公司,才有资格定义「需要什么数据」、才能分辨「什么是 garbage」;</p><p>「投资人最后看的是这道菜到底怎么样,他并不知道这道菜里头真正用了多少调料。」</p></blockquote><ul><li><p>具身大脑看美国?中国有机会做出好大脑吗?</p></li></ul><blockquote><p>中美数据成本差约 10 倍,低成本 + 多样性是中国的机会</p><p>关于派(Pi):证明了真实数据在夹爪上能泛化,验证了真实数据路线</p><p>现在远没到具身的「ChatGPT 3.5 时刻」:非结构化环境的通用还很漫长,但「专注一个 domain 」的通用是可以做出来的<br>灵初的双模型架构:R 是策略模型(输入图像/语言/本体状态,生成动作);W0 是世界模型(像真实世界仿真器,评估动作后的状态,用强化学习优化、放入约 30% 纠错失误数据),两个模型串成闭环,再回流生成新数据集<br>主流架构(Transformer)能不能成为绝对垄断架构,还需数据验证——Transformer 是在 GPT-3.5 之后吃掉巨量数据、加上强化学习才被验证的;具身底层架构的有效性,同样要靠足够的数据来验证</p></blockquote><h3>Part 6. <a class="timestamp">01:22:54</a> 「游戏才刚刚开始,第一轮淘汰赛都还未开始。」</h3><ul><li><p>具身大脑公司,怎么做?</p></li></ul><blockquote><p>大模型&amp;后训练人才:创业公司怎么和大厂抢人?</p><p>最难的事怎么解决?——「没有失败过的成功,是不可信的」</p><p>为什么拒绝把灵初定位为一家「AGI 公司」?</p><p>通用灵巧操作是技术通货:「未来我们甚至可以不做机器人」</p><p><strong>AI 时代的产品经理有三个圈</strong>——懂技术、懂 UI(用户交互)、有商业思维</p></blockquote><ul><li><p>从 R(research),到 D(Development),到 P(Product)——如何在一个大组里快速迭代?</p></li></ul><blockquote><p>选场景必须同时满足两个条件:有真正商业价值的共性痛点(应用面广)、且符合数据泛化性需求</p><p>进工厂的事故责任:作为供应商有协议要负责,高节拍流水线很难,流水线下的供料等场景可跑通;</p><p>「具身这个行业早已被客户簇拥」</p><p>「曲线已开始跑但还没到真正拐点」「今年底是模型泛化性的第一个验证阶段」</p><p>基于数据量的模型迭代军备竞赛已开始,周期 3 年以上<br>「百万小时数据是我们最早提的,现在所有人都这么说时反而要警惕」</p></blockquote><h3>Part 7. <a class="timestamp">01:53:30</a> 一个 70 后创业者的务实 &amp; 浪漫</h3><ul><li><p>创业是冲浪还是西西弗斯:不存在"走到某阶段就彻底释放",过程本身才最重要</p></li><li><p>「某天清晨阳光斜照在 logo 墙上的一瞬间」</p></li><li><p>真正的中年危机:40 岁时,最怕未来与自己无关</p></li><li><p>「我最讨厌被叫老板」</p></li><li><p>我强烈推荐你去读摩根·豪泽尔的《Same as Ever》</p></li><li><p>创始人的基因(vision/mission/经历)真正决定了公司的路径</p></li><li><p>DeepMind 哈萨比斯押注 AlphaGo 做出世界级成果,却 miss 了大语言模型;OpenAI 以"安全/非营利"起家,最后一批人出走创立 Anthropic——<strong>同一场 AI 史诗里有各种活法</strong></p></li></ul><p>加入听友群⬇️</p><img src="https://image.xyzcdn.net/FrYf1KcEKVOSA8f0CF-c9q0msmRA.jpg"><p>如果你是具身领域的专业 researcher ,欢迎添加主播微信(SJ_Jelyne).</p>

77 total episodes available

Deep-dive analytics for 卫诗婕|商业漫谈Jane's talk

Frequently asked questions

Have a different question and can't find the answer you're looking for? Reach out to our support team by sending us an email and we'll get back to you as soon as we can.

What is 卫诗婕|商业漫谈Jane's talk?

更有生命力的科技商业访谈。

Explore better tech reading.

Hello~如果是新朋友,推荐几期具代表性的必听节目:1.感受创始人访谈的魅力——第40期(影石JK)、第51期(Plaud许高)、第34期(fellou谢扬);2.感受商业和良知的魅力——第24期医改与集采(必听)、第28期英伟达、第25期聊回购。相信听完这几期,会对这档节目的定位——做最有生命力的科技商业访谈——有更具象的认知。(公众号、各平台视频账号同名)

我是诗婕,做过社会调查、特稿记者、科技媒体主编。关注科技商业进步与公共利益~我会把自己持续学习的过程开源给大家,在这里也能学习AI、具身智能、全球化等前沿领域。在这里,点亮科技星空。

希望一起描绘、定义、推动一个更美好的世界。:)

————

关于诗婕:虎嗅2024年度作者、金字节奖年度新锐作者、网易非虚构文学奖年度作者、全球真实故事奖TSA(True Story Award)。

合作洽谈 👉 微信:SJ_Jelyne(添加请备注身份+事由) 听友读者互动,欢迎加入听友群(每期节目简介会更新群二维码)

How often does this podcast release new episodes?

This podcast updates daily.

Where can I listen to this podcast?

This podcast is available on 6 platforms including Apple Podcasts, Spotify, and more. You can also use the RSS feed directly.

Does this podcast accept guests?

No, this podcast does not typically feature guests.

Legal Disclaimer

Pod Engine is not affiliated with, endorsed by, or officially connected with any of the podcasts displayed on this platform. We operate independently as a podcast discovery and analytics service.

All podcast artwork, thumbnails, and content displayed on this page are the property of their respective owners and are protected by applicable copyright laws. This includes, but is not limited to, podcast cover art, episode artwork, show descriptions, episode titles, transcripts, audio snippets, and any other content originating from the podcast creators or their licensors.

We display this content under fair use principles and/or implied license for the purpose of podcast discovery, information, and commentary. We make no claim of ownership over any podcast content, artwork, or related materials shown on this platform. All trademarks, service marks, and trade names are the property of their respective owners.

While we strive to ensure all content usage is properly authorized, if you are a rights holder and believe your content is being used inappropriately or without proper authorization, please contact us immediately at hey@podengine.ai for prompt review and appropriate action, which may include content removal or proper attribution.

By accessing and using this platform, you acknowledge and agree to respect all applicable copyright laws and intellectual property rights of content owners. Any unauthorized reproduction, distribution, or commercial use of the content displayed on this platform is strictly prohibited.