An Open Foundation Model for Generalist Humanoid Robots
Paper: https://arxiv.org/abs/2503.14734 Code: https://github.com/NVIDIA/Isaac-GR00T/
摘要
通用机器人需要具备多功能的身体和智能的大脑。近期人形机器人领域的进展显示出其作为在人类世界中构建通用自主能力的硬件平台的巨大潜力。一个在海量且多样化数据源上训练的机器人基础模型对于使机器人能够推理新情境、稳健应对现实世界的多样性以及快速学习新任务至关重要。为此,我们推出了 GR00T N1,这是一款面向人形机器人的开源基础模型。GR00T N1 是一个具有双系统架构的 VLA 模型。
使用真实机器人的轨迹、人类视频以及合成生成的数据集的异构混合来训练 GR00T N1。 GR00T N1 在多个机器人实例的标准仿真基准测试中超越了最先进的模仿学习基线。此外在傅里叶 GR-1 人形机器人上部署了我们的模型,用于语言条件下的双臂操作任务,实现了高性 能且数据效率高。
引言
在人类世界中创造能够执行日常任务的自主机器人长期以来一直是一个令人着迷的目标,同时也是一项重大的技术挑战。近期在机器人硬件、人工智能和加速计算方面的进展共同为开发通用机器人自主性奠定了基础。为了迈向人类水平的物理智能,我们倡导一种整合三个关键要素的全栈解决方案:硬件、模型和数据。首先,机器人是具身的物理代理,其硬件决定了它们的能力范围:
- 由于人形机器人具有类似人类的体格和多功能性,因此它们是构建机器人智能的一个极具吸引力的形式因素。
- 现实世界的多样性和易变性要求机器人能够在开放性目标上运行并执行广泛的任务。实现这一点需要一个足够富有表现力且能够处理各种任务的通用机器人模型。
- 大规模获取真实世界的人形机器人数据既昂贵又耗时。我们需要一种有效的数据策略来训练大规模机器人模型。
近年来,基础模型在理解和生成视觉与文本数据方面取得了戏剧性的突破。它们证明了在网页规模的数据上训练通用模型的有效性,从而实现强大的泛化能力和对下游任务的快速适应。基础模型赋予它们一系列核心能力,并使它们能够在现实世界中快速学习和适应。然而,与文字和像素的数字领域不同,不存在用于大规模预训练的人形机器人数据集互联网。任何单一的人形硬件可用的数据量都会小几个数量级。机器人学习社区的最新努力(Open X-Embodiment Collaboration et al., 2024)已经探索了跨体现学习,通过汇集许多不同机器人的训练数据来扩大数 据集。然而,机器人体现、传感器、执行器自由度、控制模式以及其他因素的巨大差异导致了一个个“数据孤岛”,而不是一个连贯的、互联网规模的数据集,这是训练真正通用模型所需要的。
为了解决前面提到的“数据孤岛”问题,将 VLA 训练语料库构建为一个数据金字塔,如图 所示。我们没有将训练数据集视为一个同质化的池,而是按规模对异构数据源进行组织:大量的网络数据和人类视频构成了金字塔的底层;通过物理仿真生成的合成数据和/或通过现成的神经模型增强的数据构成了中间层,而从物理机器人硬件上收集的真实世界数据构成了顶层。金字塔的下层提供了广泛的视觉和行为先验知识,而上层则确保了在实体机器人执行中的落地。
我们开发了一种有效的协同训练策略,以在预训练和后训练阶段跨整个数据金字塔进行学习。为了使用无动作数据源(例如人类视频和生成的视频)训练我们的模型,我们学习了一个潜在动作码本 (latent-action codebook)(Latent action pretraining from videos,Ye et al., 2025),并使用训练好的逆动力学模型(IDM)来推断伪动作。这些技术使我们能够在无动作视频上标注动作,从而有效地将它们视为模型训练中的额外机器人实例。通过整合数据金字塔中的所有数据源,我们构建了一个一致的数据集,其中输入包括机器人状态、视觉观察和语言指令,输出是相应的电机动作。我们通过跨这三种数据层(包括标注过的视频数据集、合成生成的数据集和真实机器人的轨迹)采样训练批次,端到端地预训练我们的模型。
架构
这里和 OpenVLA 以及 不同,VLM 没有直接处理 actions。
/使用 NVIDIA Eagle-2 VLM 作为视觉语言骨干网络。具体来说,我们公开发布的 GR00T-N1-2B 模型总共拥有 22 亿参数,其中 VLM 部分有 13.4 亿参数。在 L40 GPU 上使用 bf16 时,采样 16 个动作片段的推理时间为 63.9 毫秒。 GR00T N1 的三个关键特点:
- 设计了一个组合模型,将基于 VLM 的推理模块(系统 2)和基于 DiT 的动作模块整合到一个统一的学习框架中;
- 开发了一种有效的预训练策略,使用人类视频、仿真和生成数据以及真实机器人的演示的混合数据,以实现泛化和鲁棒性;
- 训练了一个大规模多任务、语言条件化的策略,支持广泛的机器人实例,并通过数据高效的后训练实现对新任务的快速适应。
结构如上图所示,。
实验发现,使用中间层而不是最后一层的 LLM 嵌入,不仅提高了推理速度,还提高了下游策略的成功率。对于 GR00T-N1-2B,使用第 12 层的表示。
DiT 中包含交替使用的交叉注意力和自注意力,类似 flamingo。
去噪过程训练过程与 相同,推理采样步数为 。
训练数据生成
对于人类第一人称视频和神经轨迹,我们没有可以直接用于训练 GR00T N1 的动作。对于这些数据,我们通过训练一个 VQ-VAE 模型从视频中的连续图像帧中提取特征来生成潜在动作(Ye 等人,2025)。编码器接收视频中固定窗口大小 的当前帧 和未来帧 ,并输出潜在动作 。解码器被训练为接收潜在动作 和 ,并重建 。该模型使用 VQ-VAE 目标进行训练,其中编码器的连续嵌入被映射到码本中最近的嵌入。训练完成后,我们取编码器并将其用作逆动力学模型;给定一个 和 对,我们提取连续的预量化嵌 入,并将其用作预训练期间的潜在动作标签,使用相同的流匹配损失,但将其视为一个独立的“LAPA”实体。在所有异构数据上一起训练 VQ-VAE 模型,使我们能够统一所有数据,使其共享相同的已学习潜在动作空间,从而可能提高跨实体泛化能力。下图展示了来自 8 种不同实体(包括机器人和人类实体)的 和 对,所有这些对都是从相似的潜在动作中检索到的;第一个潜在动作显示所有实体将右臂向左移动,第二个潜在动作显示将右臂向右移动。
在收集的 88 小时内部远程操控数据上微调了图像到视频生成模型,并根据现有的初始帧和新颖的语言提示生成了 827 小时的视频数据,将其扩展了大约 10 倍。这使得能够生成训练数据,捕捉现实世界中更多的反事实场景,而无需为这些情况中的每一个实际收集远程操控数据(示例见图 5;更多梦想生成示例见图 13)。
为了增加神经轨迹的多样性,我们首先使用商业级多模态大语言模型来检测初始帧中的物体,并生成更多可能的“从地点 A 捡起 物体 放到 地点 B ”的组合,同时指示模型仅考虑物理上可行的组合。我们还对生成的视频应用后处理机制,包括过滤和重新标注。为此,我们还使用商业级多模态大语言模型作为评判,并输入降采样的 8 帧来过滤掉不符合语言指令的神经轨迹。然后我们对过滤掉的视频进行标注。
扩大人形机器人的现实世界数据收集成本极高,因为同时控制双臂和灵巧手存在挑战。最近的研究表明,在仿真环境中生成训练数据是一种实用的替代方案。我们使用 DexMimicGen 来合成大规模的机器人操作轨迹。