SpatialClaw – 英伟达联合 KAIST 推出的免训练空间推理框架

动态 来源:AI工具集 2026-06-22 21:32:52

SpatialClaw是什么

SpatialClaw 是 NVIDIA Research 与 KAIST 联合推出的免训练空间推理框架,通过代码即动作机制在持久化 Python 内核中迭代执行复杂 3D/4D 空间推理任务,在 20 项基准上平均准确率达 59.9%,超越此前最优方法 11.2 个百分点。

SpatialClaw的主要功能

  • 代码即动作接口:智能体在持久化 Jupyter 内核中逐单元格编写 Python 代码,自由组合深度重建、分割掩码等感知工具输出。
  • 五阶段智能体循环:系统依次执行规划、代码生成、AST 安全校验、执行与反馈组装、答案提交或迭代修正。
  • 多模态感知集成:原生支持 Depth Anything 3、SAM 3 等视觉工具,配合 NumPy/SciPy 进行实时几何计算。
  • 完全免训练部署:同一套系统提示词与工具集直接运行在 Qwen3.5/3.6、Gemma4 等 6 个骨干网络上。
  • 动态 4D 推理支持:覆盖单图、多视图、视频与 4D 时序场景的空间关系理解与度量计算。

SpatialClaw的技术原理

  • 代码即动作接口:SpatialClaw 将传统结构化工具调用替换为 Python 代码生成,VLM 在持久化 Jupyter 内核中自由编写、执行和修正代码,动作空间不再受限于预定义 JSON 格式,可表达任意复杂的空间计算逻辑。

  • 五阶段智能体循环:系统依次执行规划、代码生成、AST 安全校验、执行与反馈组装、答案提交或迭代修正,形成闭环;执行后的变量状态与可视化结果作为多模态反馈回传 VLM,驱动下一步代码修正。

  • 持久化 Jupyter 内核:代码执行后变量与对象保留在内存中,后续单元格可直接复用中间结果,支持多步迭代推理;内核中的 matplotlib 输出被捕获为图像反馈,使 VLM 能够”看到”计算过程并据此调整。

  • 感知工具集成:Depth Anything 3、SAM 3 等视觉基础模型以 Python 模块形式暴露,VLM 通过代码自由编排深度估计、分割掩码生成与 NumPy/SciPy 几何计算,实现模块化组合。

  • AST 安全校验:通过抽象语法树静态分析拦截危险调用,仅允许白名单内的感知工具与数学库执行,防止恶意代码并控制资源占用上限。

微信关注回复 “开源”,加入AI开源项目交流群

如何使用SpatialClaw

  • 环境准备:克隆 GitHub 仓库并配置持久化 Jupyter 内核及 Depth Anything 3、SAM 3 等依赖工具。
  • 模型接入:选择 Qwen3.5/3.6 或 Gemma4 等支持的 VLM 作为推理骨干。
  • 任务输入:提交包含空间推理问题的图像、多视图或视频数据。
  • 智能体循环:系统自动执行规划、代码生成、AST 校验、执行与反馈组装的迭代循环。
  • 结果获取:从内核变量状态与可视化输出中提取最终空间推理答案。

SpatialClaw的核心优势

  • 免训练即插即用:无需任何基准或模型专属微调,降低部署门槛与算力成本。
  • 代码动作灵活性:相比固定 JSON 工具调用,Python 代码可表达任意复杂空间计算逻辑。
  • 显著性能领先:在 DSI-Bench 和 MindCube 等动态任务上分别提升 17.6 和 15.3 个百分点。
  • 跨模型通用性:同一架构在 26B 至 397B 参数规模的 6 个不同 VLM 上均取得一致增益。
  • 安全执行保障:内置 AST 安全校验机制,防止恶意代码执行并确保内核状态稳定。

SpatialClaw的项目地址

  • 项目官网:https://spatialclaw.github.io/

  • GitHub仓库:https://github.com/NVlabs/SpatialClaw

  • arXiv技术论文:https://spatialclaw.github.io/static/pdfs/spatialclaw.pdf

SpatialClaw的同类竞品对比

维度SpatialClawSpaceTools
定位NVIDIA 与 KAIST 联合发布的免训练空间推理智能体框架。此前最优的空间智能体基线方法。
动作接口代码即动作,在持久化 Jupyter 内核中生成并执行 Python 代码。结构化工具调用,以固定 JSON 格式调用预定义感知工具。
训练需求完全免训练,同一套提示词直接运行在 6 个不同 VLM 上。需要针对特定基准或模型进行训练/微调。
支持模态单图、多视图、视频与 4D 时序场景。主要支持单图与多视图,动态 4D 能力有限。
核心机制五阶段循环(规划→代码生成→AST 校验→执行反馈→迭代修正)。单步或有限步的工具链编排,无代码级反馈循环。
动态 4D 性能DSI-Bench 提升 +17.6,MindCube 提升 +15.3,原生支持时序推理。动态任务表现较弱,缺乏时序状态累积机制。
迭代纠错执行错误与变量状态回传 VLM,支持代码级自主修正。工具调用出错后难以自动修复,通常需人工干预。

SpatialClaw的应用场景

  • 机器人导航与抓取:为移动机器人和机械臂提供精确的物体 metric 距离测量与空间关系判断,辅助路径规划与抓取姿态决策。
  • AR/VR 室内布局:自动识别家具、门窗等元素的相对位置与尺寸,生成合理的室内摆放方案并实时叠加于虚拟空间。
  • 自动驾驶感知:融合多摄像头输入进行 3D 场景重建,理解道路元素的空间拓扑关系以支持决策规划。
  • 建筑安全巡检:基于多视角图像分析工地结构的空间合规性,检测脚手架间距、防护栏高度等安全指标。
  • 工业精密测量:通过多视图深度估计对零部件进行非接触式三维尺寸测量与形位公差检测。

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接