论文标题: Can Vision-Language Models Think from a First-Person Perspective? 论文链接:https://arxiv.org/abs/2311.15596项目主页: https://adacheng.github.io/EgoThink/代码链接:https://github.com/AdaCheng/EgoThink数据集链接:https://huggingface.co/datasets/EgoThink/EgoThink
表1:评测实验结果。综上所述,尽管目前视觉语言大模型如今在多个评测榜单上达到较好的表现,但其在第一人称视角下的思考能力仍有很大的进步空间。实验结果表明,视觉语言大模型在第一人称视角的任务上表现较差,大多数任务的平均评测分数都仅在60分左右;只在预测和计划两个领域表现较好。此外,在所有模型中,GPT-4V目前仍然是在绝大多数场景下表现更好的模型,但仍离实际应用有较大的距离。四、总结该工作为考察多模态模型作为智能体或机器人大脑的潜力,提出了以第一人称为视角的视觉问答基准数据集——EgoThink。该数据集把模型的第一人称视角下的思考能力从六个维度进行拆解,并对每个能力维度进行了详尽的评测。评测结果显示,当前阶段的视觉语言大模型,包括GPT-4V,从第一人称视角进行思考的整体能力上还远未达到人类水平。因此,随着基础模型的能力不断地提升,如何让多模态模型能像人类作为本体一样,从第三人称视角的观察到从第一人称视角去主动感知、理解、思考,从静态图片到动态环境探索,从简单评测基准到复杂真实任务,是迈向下一阶段通用人工智能的重要研究问题。Illustration From IconScout By Delesign Graphics