论文标题: Can Vision-Language Models Think from a First-Person Perspective? 论文链接:https://arxiv.org/abs/2311.15596项目主页: https://adacheng.github.io/EgoThink/代码链接:https://github.com/AdaCheng/EgoThink数据集链接:https://huggingface.co/datasets/EgoThink/EgoThink
该论文选取GPT-4作为自动评估模型,用来评估模型输出与人工标注答案的相似度,并根据相似度进行打分,判断模型输出是否准确可靠。论文实验结果显示GPT-4模型与人工评估结果的Pearson相关系数为0.68,证实了GPT-4评估的可靠性。评测结果该论文选用了视觉语言大模型领域十八个有代表性的模型进行评测,较为全面地评测了视觉语言大模型领域第一人称视角下的思考能力。评测结果如下图所示:表1:评测实验结果。综上所述,尽管目前视觉语言大模型如今在多个评测榜单上达到较好的表现,但其在第一人称视角下的思考能力仍有很大的进步空间。实验结果表明,视觉语言大模型在第一人称视角的任务上表现较差,大多数任务的平均评测分数都仅在60分左右;只在预测和计划两个领域表现较好。此外,在所有模型中,GPT-4V目前仍然是在绝大多数场景下表现更好的模型,但仍离实际应用有较大的距离。四、总结该工作为考察多模态模型作为智能体或机器人大脑的潜力,提出了以第一人称为视角的视觉问答基准数据集——EgoThink。该数据集把模型的第一人称视角下的思考能力从六个维度进行拆解,并对每个能力维度进行了详尽的评测。评测结果显示,当前阶段的视觉语言大模型,包括GPT-4V,从第一人称视角进行思考的整体能力上还远未达到人类水平。因此,随着基础模型的能力不断地提升,如何让多模态模型能像人类作为本体一样,从第三人称视角的观察到从第一人称视角去主动感知、理解、思考,从静态图片到动态环境探索,从简单评测基准到复杂真实任务,是迈向下一阶段通用人工智能的重要研究问题。Illustration From IconScout By Delesign Graphics 租!GPU算力