酷应用

从第一人称视角理解世界，多模态模型离我们还有多远？| CVPR 2024

百家作者：大数据文摘 2024-03-11 14:09:27

大数据文摘受权转载自将门创投

目前很多评测工作探究视觉语言大模型在不同维度上的能力，但都忽视了真实世界中非常重要的一点：未来作为智能体或机器人的大脑，多模态模型应当具备从第一人称视角理解世界的能力。针对以上问题，清华大学提出了第一人称视角的视觉问答基准数据集——EgoThink，相关论文被人工智能顶级国际会议CVPR 2024录用。EgoThink数据集定义了在真实世界中从第一人称思考时所需的六种核心能力，并评估了十八个主流的视觉语言大模型的表现。评测结果显示，目前阶段的视觉语言大模型从第一人称视角进行思考的能力仍有显著欠缺，即使是GPT-4V模型在所有任务上的平均分也仅为65.5（满分100）。

论文标题：
Can Vision-Language Models Think from a First-Person Perspective?
论文链接：
https://arxiv.org/abs/2311.15596
项目主页：
https://adacheng.github.io/EgoThink/
代码链接：
https://github.com/AdaCheng/EgoThink
数据集链接：
https://huggingface.co/datasets/EgoThink/EgoThink

一、研究背景

近年来随着视觉语言大模型的不断发展，评测视觉语言大模型的优势与不足逐渐成为了非常重要的研究问题。目前已有的评测数据都是以物体为中心或者第三人称视角，对于模型在第一人称视角下的能力评测则有显著欠缺。第一人称视角是人与智能体观察和理解世界的方式，在与真实世界交互的过程中，人类会根据周边环境从很多维度进行思考，如图1所示。因此，该工作更关心视觉语言大模型作为智能体或机器人大脑的潜力，即包括从第一视角理解周围场景并进行思考的能力。

图1：EgoThink评测能力类别。

二、数据集构建

该论文提出了一个针对视觉语言大模型在第一人称视角下思考能力的较为完整的视觉问答评测数据集——EgoThink。该数据集共包含700条问答问题，总结了6个核心能力作为评测的维度，并进一步细分为12个维度，如图2所示。

EgoThink来源于Ego4D第一人称视频数据集的采样图片，为保证数据多样性，每条视频最多只采样出两张图片。数据集图片同样经过了严格的筛选，只留下了拥有较好质量和能明显体现第一人称视角思考的图片。该数据集采用人工标注，每种维度都包含至少50条详细标注的问答问题，并且数据来源于多个第一视角的不同现实场景。为确保数据标注质量，每组图片及标注数据都经过多轮人工检查，以保证图片清晰度和标注准确性。

图2：EgoThink任务类别与具体维度以及数据实例。

三、模型评测
评测方式

该论文选取GPT-4作为自动评估模型，用来评估模型输出与人工标注答案的相似度，并根据相似度进行打分，判断模型输出是否准确可靠。论文实验结果显示GPT-4模型与人工评估结果的Pearson相关系数为0.68，证实了GPT-4评估的可靠性。

评测结果

该论文选用了视觉语言大模型领域十八个有代表性的模型进行评测，较为全面地评测了视觉语言大模型领域第一人称视角下的思考能力。评测结果如下图所示：

表1：评测实验结果。

综上所述，尽管目前视觉语言大模型如今在多个评测榜单上达到较好的表现，但其在第一人称视角下的思考能力仍有很大的进步空间。实验结果表明，视觉语言大模型在第一人称视角的任务上表现较差，大多数任务的平均评测分数都仅在60分左右；只在预测和计划两个领域表现较好。此外，在所有模型中，GPT-4V目前仍然是在绝大多数场景下表现更好的模型，但仍离实际应用有较大的距离。

四、总结

该工作为考察多模态模型作为智能体或机器人大脑的潜力，提出了以第一人称为视角的视觉问答基准数据集——EgoThink。该数据集把模型的第一人称视角下的思考能力从六个维度进行拆解，并对每个能力维度进行了详尽的评测。评测结果显示，当前阶段的视觉语言大模型，包括GPT-4V，从第一人称视角进行思考的整体能力上还远未达到人类水平。

因此，随着基础模型的能力不断地提升，如何让多模态模型能像人类作为本体一样，从第三人称视角的观察到从第一人称视角去主动感知、理解、思考，从静态图片到动态环境探索，从简单评测基准到复杂真实任务，是迈向下一阶段通用人工智能的重要研究问题。

Illustration From IconScout By Delesign Graphics

黑色小圆动图分割线