机器人 AI 或迎「ChatGPT 时刻」:旧金山初创公司 Physical Intelligence 发布新模型π0.7,展现出从未训练过任务的自主执行能力,令研究人员自身都感到意外。这一「组合泛化」突破,有望彻底颠覆机器人商业化路径,该公司估值也随之从 56 亿美元飙向 110 亿美元。
撰文:赵颖
来源:华尔街见闻
机器人 AI 领域或正迎来类似大语言模型的能力跃迁时刻。
总部位于旧金山的机器人初创公司 Physical Intelligence 周四发布最新研究,称其新模型π0.7 能够指挥机器人完成从未经过专项训练的任务——这一能力甚至令公司自身研究人员感到意外。
该公司联合创始人、加州大学伯克利分校教授 Sergey Levine 表示,这标志着机器人 AI 正在从「死记硬背」走向「举一反三」,其能力提升速度将超越训练数据规模的线性增长。
这一突破若得到外部验证,将对机器人行业的商业化路径产生深远影响——机器人有望在无需额外数据采集或模型重训练的前提下,被部署至全新环境并实时优化。与此同时,据报道 Physical Intelligence 正就新一轮融资进行洽谈,估值或从 56 亿美元接近翻倍至 110 亿美元。
Physical Intelligence 成立仅两年,此次发布的π0.7 模型所展示的核心能力被研究人员称为「组合泛化」(compositional generalization)——即将在不同场景下习得的技能加以组合,从而解决模型从未遇到过的新问题。
这与此前机器人训练的主流范式截然不同。过去的标准做法本质上是「死记硬背」:针对每一项具体任务收集数据、训练专项模型,再对下一项任务重复这一流程。π0.7 打破了这一模式。
Levine 将这一转变类比于大语言模型领域曾出现的能力跃迁:「一旦跨越那个临界点,从只能完成有数据支撑的任务,转变为能够以新方式重新组合技能,能力提升的速度就会超过数据量增长的线性比例。这种更有利的扩展特性,我们此前已在语言和视觉领域观察到过。」
此次研究中最具说服力的演示,来自一台模型几乎从未在训练中见过的空气炸锅。研究团队事后排查发现,整个训练数据集中仅有两条相关记录:一条是另一台机器人将空气炸锅推关,另一条来自开源数据集,记录了一台机器人按指令将塑料瓶放入其中。
然而,π0.7 将这两段碎片化信息与更广泛的网络预训练数据加以整合,形成了对该设备运作方式的功能性理解。在零提示的情况下,模型尝试用空气炸锅烹饪红薯,取得了基本可接受的结果;在获得逐步语言指引后,任务执行成功。
Physical Intelligence 研究员、斯坦福大学计算机科学博士生 Lucy Shi 描述了一个早期实验的戏剧性转变:初始成功率仅为 5%,但在花费约半小时优化对任务的描述方式后,成功率跃升至 95%。「有时候失败不在机器人,也不在模型,而在于我们自己——提示词工程做得不够好,」她说。
研究科学家 Ashwin Balakrishna 则表示,过去他总能根据训练数据预判模型的能力边界,「但过去几个月是我第一次真正感到惊讶。我随手买了一套齿轮,问机器人能不能转动它,它就直接做到了。」
研究团队对模型的局限性保持坦诚。π0.7 目前尚无法从单一高层指令出发,自主完成复杂的多步骤任务。「你不能对它说『去给我做片吐司』,」Levine 说,「但如果你一步步引导它——『对于烤面包机,打开这个部分,按那个按钮,做这个』——它通常能做得很好。」
此外,机器人领域目前缺乏标准化基准测试,使得外部验证存在相当难度。Physical Intelligence 选择将π0.7 与自家此前的专项模型进行对比,结果显示这一通用模型在制作咖啡、折叠衣物、组装箱子等复杂任务上达到了专项模型的水准。
论文本身在措辞上也保持审慎,将π0.7 描述为展现出泛化能力的「早期迹象」和「初步演示」。当被直接追问基于上述研究的系统何时能够实际部署时,Levine 拒绝给出预测:「我认为有充分理由保持乐观,进展速度也比我两年前预期的要快。但这个问题我很难回答。」
Physical Intelligence 迄今已累计融资逾 10 亿美元,最新估值为 56 亿美元。据报道,该公司目前正就新一轮融资进行洽谈,估值或接近翻倍至 110 亿美元。
投资者对这家公司的热情,在相当程度上源于联合创始人 Lachy Groom 的背书。Groom 此前是硅谷最受认可的天使投资人之一,曾投资 Figma、Notion 和 Ramp 等知名公司,在决定联合创立 Physical Intelligence 之前,他将其视为自己一直在寻找的那家公司。这一背景帮助这家初创公司吸引到了机构资金,尽管公司始终拒绝向投资者提供商业化时间表。
Levine 在谈及外界可能的质疑时,主动预判了批评方向:「针对任何机器人泛化演示,永远可以提出的批评是——任务太无聊了,机器人又没在做后空翻。」他对此提出反驳:真正能够泛化的机器人系统,看起来永远不如精心编排的特技演示那般震撼,但其实用价值要高得多。
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
