酷应用

零样本操控机器人，李飞飞团队新作！

百家作者：大数据文摘 2023-07-10 12:46:12

大数据文摘授权转载自夕小瑶科技说
作者 | 智商掉了一地、ZenMoore

这个世界是三维立体的，那么具身 AI 也应当在 3D 世界中运作。如何利用基础模型在机器人操作中进行自然场景泛化？斯坦福大学李飞飞团队的机器人新作来咯~

他们提出的 VoxPoser 从大型语言模型和视觉-语言模型中提取机会和约束，以构建 3D 值地图，以供运动规划器使用，用于零样本合成日常操纵任务的轨迹，从而实现在真实世界中的零样本机器人操纵。

论文题目:
VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models

论文链接:
https://voxposer.github.io/voxposer.pdf

博客地址:
https://voxposer.github.io/

本文的研究目标是在给定开放式指令集和开放式对象集的情况下，为各种操纵任务合成机器人轨迹，即密集的六自由度末端执行器航点序列。大型语言模型被证明拥有丰富的可操作知识，可以通过推理和规划来提取用于机器人操纵的信息。尽管取得了一定进展，但大多数方法仍依赖于预定义的运动基元来进行与环境的物理交互，这成为目前研究的主要瓶颈。

由于数据对于泛化至关重要，但机器人数据稀缺且昂贵。因此为了避免在标记数据上进行策略训练，VoxPoser 的研究工作中采用 LLM+VLM 的方法，利用生成的代码来构建 3D 值地图。随后，运动规划器根据这些地图合成具备六个自由度的动作，且所有这些操作均不需要进行任何训练或使用基本操作。

如图 1 所示，VoxPoser 可以在真实世界的操纵任务中零样本合成轨迹，对于自由形式语言指令的开放集和对象的开放集都能适用。

VoxPoser

如图 2 所示是 VoxPoser 的框架概览。给定环境的 RGB-D 观测和语言指令，其中（a）部分为 LLM 生成代码与 VLM 交互，产生一系列在机器人的观测空间中建立的 3D 机会图和约束图（统称为值图），然后（b）部分为组合的值图作为运动规划器的目标函数，用于合成机器人操纵的轨迹。整个过程不涉及任何额外的训练。

如下面视频中所示，根据自由形式的指令和 RGB-D 观测，LLM 协调感知调用 VLM 和数组操作，为体素地图分配连续值，显示出“何处行动”和“如何行动”。此外，它还对旋转、速度和夹爪动作进行参数化，以实现完整的 SE(3) 轨迹。

实验

日常操作任务

作者进行了大量的实验，在真实世界的日常操纵任务中对 VoxPoser 进行了验证，包括关节式和可变形物体的操纵。下面视频的所有结果都是通过零样本执行进行合成的。

真实领域和模拟领域的实验结果分别如表 1 和表 2 所示：

尽管在接触丰富的任务中存在一定的局限性，但 VoxPoser 可以作为先验知识，用于从在线交互中高效学习。从下表 3 的实验结果中可以得到，与没有先验知识的探索相比，VoxPoser 能够在不到 3 分钟的时间内学会打开各种具有复杂结构的关节物体。这种先验知识的应用使得学习过程更加高效，并且为机器人在面对具有复杂结构的物体时提供了更好的操控能力。

错误分类如图 3 所示，尽管 VoxPoser 依赖于多个组件，但它有效地减少了在指定目标和数值时的错误。

如图 4 是在真实世界环境中可视化组合的 3D 值地图和轨迹，其中：

顶部行展示了当“感兴趣的实体”为对象或部件时，值地图如何引导它们朝向目标位置。
底部两行展示了当“感兴趣的实体”为机器人末端执行器时的任务。最底部的任务涉及两个阶段，也由 LLM 协调完成。

新兴的行为能力

如图 5 所示，机器人有以下一些比较新颖的能力：

估算物理属性：给定两个未知质量的方块，机器人被要求使用现有工具进行物理实验，确定哪个方块更重。
常识性行为推理：在摆桌子的任务中，用户可以指定行为偏好，比如“我是左撇子”，这要求机器人在任务环境中理解其含义。
细粒度语言纠正：对于需要高精度的任务，比如“用盖子盖住茶壶”，用户可以给机器人提供精确的指令，比如“你离目标有1厘米的偏差”。
多步骤视觉程序：在任务“精确地将抽屉打开一半”的情况下，由于物体模型不可用，信息不足，机器人可以根据视觉反馈提出多步骤的操纵策略。首先完全打开抽屉并记录把手的位移，然后将其关闭到中间位置以满足要求。
▲图5 VoxPoser 的新兴行为能力展