酷应用

SpatialClaw – 英伟达联合 KAIST 推出的免训练空间推理框架

动态来源：AI工具集 2026-06-22 21:32:52

SpatialClaw是什么

SpatialClaw 是 NVIDIA Research 与 KAIST 联合推出的免训练空间推理框架，通过代码即动作机制在持久化 Python 内核中迭代执行复杂 3D/4D 空间推理任务，在 20 项基准上平均准确率达 59.9%，超越此前最优方法 11.2 个百分点。

代码即动作接口：SpatialClaw 将传统结构化工具调用替换为 Python 代码生成，VLM 在持久化 Jupyter 内核中自由编写、执行和修正代码，动作空间不再受限于预定义 JSON 格式，可表达任意复杂的空间计算逻辑。
五阶段智能体循环：系统依次执行规划、代码生成、AST 安全校验、执行与反馈组装、答案提交或迭代修正，形成闭环；执行后的变量状态与可视化结果作为多模态反馈回传 VLM，驱动下一步代码修正。
持久化 Jupyter 内核：代码执行后变量与对象保留在内存中，后续单元格可直接复用中间结果，支持多步迭代推理；内核中的 matplotlib 输出被捕获为图像反馈，使 VLM 能够”看到”计算过程并据此调整。
感知工具集成：Depth Anything 3、SAM 3 等视觉基础模型以 Python 模块形式暴露，VLM 通过代码自由编排深度估计、分割掩码生成与 NumPy/SciPy 几何计算，实现模块化组合。
AST 安全校验：通过抽象语法树静态分析拦截危险调用，仅允许白名单内的感知工具与数学库执行，防止恶意代码并控制资源占用上限。

微信关注回复 “开源”，加入AI开源项目交流群

维度	SpatialClaw	SpaceTools
定位	NVIDIA 与 KAIST 联合发布的免训练空间推理智能体框架。	此前最优的空间智能体基线方法。
动作接口	代码即动作，在持久化 Jupyter 内核中生成并执行 Python 代码。	结构化工具调用，以固定 JSON 格式调用预定义感知工具。
训练需求	完全免训练，同一套提示词直接运行在 6 个不同 VLM 上。	需要针对特定基准或模型进行训练/微调。
支持模态	单图、多视图、视频与 4D 时序场景。	主要支持单图与多视图，动态 4D 能力有限。
核心机制	五阶段循环（规划→代码生成→AST 校验→执行反馈→迭代修正）。	单步或有限步的工具链编排，无代码级反馈循环。
动态 4D 性能	DSI-Bench 提升 +17.6，MindCube 提升 +15.3，原生支持时序推理。	动态任务表现较弱，缺乏时序状态累积机制。
迭代纠错	执行错误与变量状态回传 VLM，支持代码级自主修正。	工具调用出错后难以自动修复，通常需人工干预。