Navigation World Models
Abstract
导航是具有视觉 - 运动能力的智能体的一项基本技能。
本文介绍了一种导航世界模型(NWM),一种可控的视频生成模型,可以根据过去的观测和导航动作预测未来的视觉观测。
为了捕捉复杂环境的动态,NWM 采用了一种条件扩散 Transformer(CDiT),该模型在人类和机器人智能体的多样化第一人称视频集合上进行训练,并扩展到 10 亿参数。在熟悉的环境中,NWM 可以通过模拟导航轨迹并评估它们是否达到期望目标来规划导航轨迹。与具有固定行为的监督导航策略不同,NWM 可以在规划过程中动态地纳入约束条件。
实验表明,它在从头开始规划轨迹或通过对外部策略采样的轨迹进行排名来规划轨迹方面是有效的。此外,NWM 利用其学到的视觉先验知识,可以从单个输入图像在不熟悉的环境中想象轨迹,使其成为下一代导航系统中灵活且强大的工具。
Introduction
导航是任何具有视觉能力的生物的一项基本技能,通过帮助智能体寻找食物、住所和躲避天敌,在生存中发挥着至关重要的作用。为了成功地在环境中导航,智能体主要依赖视觉,这使它们能够构建周围环境的表征,评估距离并捕捉环境中的地标,所有这些都有助于规划导航路线。
当人类智能体进行规划时,他们通常会考虑约束条件和反事实情况来想象未来的轨迹。另一方面,目前最先进的机器人导航策略(Gnm: A general navigation model to drive any robo,Nomad: Goal masked diffusion policies for navigation and exploration.) 是“硬编码”的,训练完成后,很难引入新的约束条件(例如“禁止左转”)。当前监督视觉导航模型的另一个限制是,它们无法动态分配更多的计算资源来解决复杂问题。我们的目标是设计一种能够缓解这些问题的新模型。
NWM 在概念上与最近的基于扩散的世界模型相似,这些模型用于离线基于模型的强化学习,例如 DIAMOND 和 GameNGen。然而,与这些模型不同的是,NWM 在多种环境和体现(embodiment)中进行训练,利用来自机器人和人类智能体的多样化导航数据。这使我们能够训练一个大型扩散 Transformer 模型,该模型能够有效地随着模型大小和数据扩展以适应多种环境。我们的方法也与新颖视图合成(NVS)方法(如 NeRF、Zero-1-2-3 和 GDC)有相似之处,我们从中汲取灵感。然而,与 NVS 方法不同的是,我们的目标是训练一个单一模型,用于在多样化环境中导航,并从自然视频中建模时间动态,而不依赖于 3D 先验。
与 DiT 不同,CDiT 的计算复杂度与上下文帧的数量呈线性关系,并且对于在多样化环境和体现中训练的模型,其扩展性良好,模型大小可达 10 亿参数,与标准 DiT 相比,计算量减少了 4 倍,同时实现了更好的未来预测结果。
在未知环境中,我们的结果表明,NWM 从 Ego4D 的无标签、无动作和无奖励的视频数据中受益。从定性上看,我们在单个图像上观察到改进的视频预测和生成性能。从定量上看,随着额外无标签数据的加入,NWM 在保留的斯坦福 Go 数据集上评估时产生了更准确的预测。