pi0-A Vision-Language-Action Flow Model for General Robot Control
Paper: https://link.zhihu.com/?target=https%3A//www.physicalintelligence.company/download/pi0.pdf
Code: https://github.com/Physical-Intelligence/openpi
Refer: https://zhuanlan.zhihu.com/p/7040420479 , https://blog.csdn.net/v_july_v/article/details/143472442 , https://blog.csdn.net/v_JULY_v/article/details/146068251
Abstract
机器人学习(Robot learning)有望充分释放灵活、通用且灵巧的机器人系统的潜力,并回答人工智能领域中一些最深刻的问题。然而,将机器人学习提升到有效现实世界系统所需的通用性水平,在数据、泛化能力和鲁棒性方面面临着重大障碍。
本文
- 提出了一种基于预训练 VLM 构建的新型流匹配架构,以继承互联网规模的语义知识。
- 讨论了如何在多个灵巧机器人平台(包括单臂机器人、双臂机器人和移动操作机器人)上收集的庞大且多样化的数据集上训练该模型。
- 从直接提示执行任务的能力、遵循人类和高级 VLM 策略的语言指令的能力,以及通过微调获得新技能的能力等方面对模型进行了评估。
Introduction
A human being should be able to change a diaper, plan an invasion, butcher a hog, conn a ship, design a building, write a sonnet, balance accounts, build a wall, set a bone, comfort the dying, take orders, give orders, cooperate, act alone, solve equations, analyze a new problem, pitch manure, program a computer, cook a tasty meal, fight efficiently, die gallantly. Specialization is for insects. --Robert A. Heinlein, Time Enough for Love
人工智能有各种各样的形式和功能,从高度专业化的系统解决人们难以触及的复杂问题,如预测蛋白质结构,到文生图。但是人类智能对比机器智能的超越是多功能性的:在真实的物理世界中解决复杂的问题,并且同时智能地应对环境限制、语言指令和意外干扰。
机器智能中体现该多功能性的最新进展就是 VLM,已被证明具有广泛的指令遵循和问题解决能力,但是其未在真实物理世界中训练,对物理交互的理解完全基于抽象描述,因此还需要在物理情景数据上进行训练——来自具身机器人代理的数据。
灵活且通用的机器人基础模型具有巨大的实际意义,也可能为机器人学习今天面临的最棘手的挑战提供解决方案,例如数据的可用性、泛化能力和鲁棒性。在 cv 和 nlp 领域,在多样化多任务数据集上的预训练模型往往比狭隘定制且专业化的模型表现更好。
因此可以猜想:对于有效的专业机器人系统来说,首先在高度多样化的机器人数据上进行预训练,然后针对所需任务进行微调或提示,可能更为有效。
- 可以解决数据稀缺的挑战,因为通用模型有更多的数据来源——包括来自其他任务、其他机器人甚至非机器人来源的数据。
- 可能解决鲁棒性和泛化能力的挑战,因为多样化数据涵盖了更多的观察和行动,提供了各种场景、纠正措施和恢复行为,这在专业化数据中并不存在。
挑战
- 必须在非常大的规模上进行(大模型的涌现能力)。
- 需要能够有效利用多样化数据源的正确模型架构,能够表示与复杂物理场景交互所必需的复杂且微妙的行为。
- 正确的训练 配方(数据集),也许是最重要的,VLM 中的许多进展很大程度上依赖于精心策划预训练和后训练数据。

本文的通用机器人策略使用了一个预训练的 VLM 作为骨干网络(引入互联网规模的数据,并基础可以继承 VLM 的通用知识,语义推理和问题解决能力),以及一个包含多种灵巧操作任务的多样化数据集。
通过添加一个单独的动作专家(action expert),该模型被适配到机器人控制中,该专家通过 流匹配 (flow matchting) 生成连续动作 (action chunks),从而实现精确且流畅的操作技能。然后可以直接使用该模型根据提示执行任务,或者在高质量数据上进行微调,以实现复杂的多阶段任务,例如折叠多件衣物或组装一个盒子。
RELATED WORK
在机器人控制之外,许多模型已经被提出将预训练语言模型与扩 散模型结合起来,包括专门将扩散与自回归大型语言模型混合的模型(Playground V3,Mars,Transfusion,都是用于图像生成)。
机器人任务包含:抓取、推动、物体重新定位、基本的家具操作(如打开抽屉)、系鞋带、煮虾、衣物折叠、桌面清理。要添加复杂性可以按照顺序执行,以及识别新的物体,如识别桌面清理中的垃圾与非垃圾。
OVERVIEW

预训练混合数据集 由我们自己的灵巧操作数据集的加权组合组成,这些数据集是在 7 种不同的机器人配置上为 68 个不同的任务收集的,以及整个 OXE 数据集(包含来自 22 个机器人的数据)。预训练阶段还使用了多样化的语言标签,结合了任务名称和片段注释(子轨迹的细粒度标签,通常持续约 2 秒)。
对于复杂且灵巧的任务,随后采用后训练程序,该程序使用高质量数据来使模型适应特定的下游任务。我们研究了使用少量到中等量数据的高效后训练,以及使用更大数据集进行复杂任务(如洗衣折叠和移动操作)的高质量后训练。
这里使用 PaliGemma 是因为其大小更小,以便于实时控制。
模型架构受到了 Transfusion 的启发,连续动作的 token 使用 flow matching loss 监督,而离散的输出(文本等)使用交叉熵监督。本文还发现,为机器人特定(动作和状态)标记使用单独的一组权重可以提高性能。这种设计类似于混合专家,其中有两个混合元素,第一个元素用于图像和文本输入,第二个元素用于机器人 特定的输入和输出。我们将第二组权重称为动作专家。
形式上,我们希望建模数据分布 ,其中 对应于未来动作的一个动作块(我们为我们的任务使用 ),而 是一个观测值。观测值由多个 RGB 图像、语言命令和机器人的本体感知状态组成,使得 ,其中 是第 个图像(每个机器人有 2 个或 3 个图像), 是一系列语言标记,而 是一个关节角度向量。图像 和状态 通过相应的编码器进行编码,然后通过线性投影层投影到与语言标记相同的嵌入空间中。