酷应用

LocateAnything – 英伟达推出的视觉语言定位模型

动态来源：AI工具集 2026-07-01 14:38:00

LocateAnything是什么

LocateAnything是英伟达推出的视觉语言定位模型，基于并行框解码技术，用户输入自然语言即可在图像中精准框选目标。模型支持多目标检测、GUI定位、OCR文本检测和点级指向等任务，推理速度达12.7 BPS（H100），较Qwen3-VL快10倍，在LVIS等基准达SOTA，适用机器人、文档智能与自动驾驶场景。

LocateAnything的主要功能

指代表达定位：根据自然语言描述在图像中定位并框选特定目标。
多目标密集检测：支持同时检测图像中的多个物体类别，输出密集的边界框集合。
GUI 元素定位：可识别并定位界面中的按钮、输入框等交互元素，支持点级输出。
文本检测与 OCR：定位图像中的文字区域，支持文档、场景文字和表格结构识别。
点级定位：支持输出精确的点坐标用于细粒度指向任务。
混合推理模式：默认使用快速并行模式，遇到复杂场景自动回退到稳定串行模式。

LocateAnything的技术原理

并行框解码（PBD）：模型将每个边界框或点视为原子单元，在单次前向传播中并行预测完整坐标集 (x1,y1,x2,y2)，非传统逐 token 串行生成。
模型架构：模型采用 Moon-ViT 视觉编码器提取原生分辨率视觉特征，经双层 MLP 投影器映射后输入 Qwen2.5 语言解码器进行定位推理。
结构化输出：模型生成语义块、框块、负样本块和结束块，通过 <box>、<ref> 等特殊 token 组织结构化定位结果。
混合推理模式：默认使用快速并行模式（MTP）最大化吞吐量，遇到格式异常或空间歧义时自动无缝回退到稳定串行模式（NTP）。
纠正性重解码：当并行解码检测到框结构畸形或坐标冲突时，自动丢弃问题块并回退到已验证前缀，通过 NTP 重新生成修正。

微信关注回复“开源”，加入AI开源项目交流群

如何使用LocateAnything

环境准备：从 GitHub 克隆 Eagle 仓库，进入 Embodied 目录执行 pip install -e . 完成依赖安装。
模型加载：导入 LocateAnythingWorker 类并实例化，加载 Hugging Face 上的 nvidia/LocateAnything-3B 预训练权重。
目标检测：调用 detect() 方法，传入图像和类别名称列表（如 ["person", "car"]），模型返回所有匹配目标的边界框坐标。
短语定位：使用 ground_multi() 方法输入图像和描述文本（如 "people wearing red shirts"），定位符合语义描述的特定目标。
文本检测：调用 detect_text() 方法，模型自动识别图像中的文字区域并输出对应的边界框集合。
GUI 定位：通过 ground_gui() 方法定位界面元素，设置 output_type="point" 可输出点坐标而非边界框。
点级指向：使用 point() 方法输入图像和描述，获取指定目标的精确单点坐标用于细粒度指向。
批量推理：配置 la_flash 运行时并将 batch_utils/ 加入 PYTHONPATH，调用 detect_batch() 同时处理多组图像-查询对。
结果解析：提取输出中 <box> 标签内的整数坐标（范围 0-1000），除以 1000 后映射到原始图像的宽高像素值。
微调适配：准备 JSONL 数据配方，使用 torchrun 启动全量微调脚本，或运行 LoRA 脚本冻结主干仅训练投影器与低秩适配层。

LocateAnything的核心优势

速度领先：单张 H100 上达到 12.7 BPS，比 Qwen3-VL 快约 10 倍，比 Rex-Omni 快约 2.5 倍。
精度 SOTA：在 LVIS、M6Doc、ScreenSpot-Pro、DocLayNet 等多个基准上达到最佳性能。
通用统一：单一模型覆盖检测、定位、GUI、OCR、布局等多样任务，无需为不同场景切换专用模型。
几何一致性：并行解码保留了框内坐标的几何耦合关系，避免串行生成导致的结构畸形。
显存优化：通过 la_flash 运行时，在 A100 等消费级/数据中心 GPU 上可将峰值显存从 35GB 降至 11GB。

LocateAnything的项目地址

项目官网：https://research.nvidia.com/labs/lpr/locate-anything/
GitHub仓库：https://github.com/NVlabs/Eagle/tree/main/Embodied
HuggingFace模型库：https://huggingface.co/nvidia/LocateAnything-3B
技术论文：https://research.nvidia.com/labs/lpr/locate-anything/LocateAnything.pdf

LocateAnything的同类竞品对比

对比维度	LocateAnything-3B	Rex-Omni
所属机构	NVIDIA 英伟达	开源社区
产品定位	通用视觉语言定位与检测模型	通用视觉定位与理解模型
核心解码技术	并行框解码（PBD），原子化单次预测完整边界框	串行/混合坐标 token 生成
推理速度（H100）	12.7 BPS	~5.0 BPS
速度倍数	基准	慢约 2.5 倍
LVIS 精度（F1@Mean）	50.7	46.9
COCO 精度（F1@Mean）	54.7	52.9
Dense200 精度	58.7	58.3
DocLayNet 文档精度	76.8	70.7
M6Doc 文档精度	70.1	55.6
TotalText（OCR）	43.3	40.6
HumanRef 指代定位	68.8	65.4