酷应用

7B模型超越GPT4-V！港科大等发布「图推理问答」数据集GITQA：视觉图可提升推理能力

百家作者：新智元 2024-03-04 18:17:14

新智元报道

编辑：LRS 好困

【新智元导读】研究人员证实了Visual Graph在图推理中的作用，以及其可以和文本模态相互增强。

图神经网络（GNNs）擅长利用图的结构信息进行推理，但它们通常需要特定于领域的调优才能达到峰值性能，这阻碍了它们在不同任务之间的泛化性。

相比之下，基于大型语言模型（LLM）的图推理具有更强的跨任务和泛化能力，但它们在特定任务上的性能往往逊色于专用的图神经网络模型。

无论是以图神经网络为代表的传统图推理还是新兴的基于大型语言模型的图推理，目前图推理相关工作都忽视了视觉模态的图信息。

然而，人类会通过视觉特征高效和准确地完成图任务，例如判断图中是否存在环。

因此，探究视觉形态的图信息在图推理中的作用具有重要意义。

更具体地，将图（Graph）绘制为图片（Image），是否能赋予模型特殊的推理能力呢？这些图片（称为视觉图 Visual Graph）是否能增强现有的基于其他模态的图推理模型呢？

为了回答这些问题，来自香港科技大学和南方科技大学的研究团队构建了首个包含视觉图的推理问答数据集GITQA，并在GPT-4 turbo，GPT-4V等开源模型和Vicuna，LLaVA等闭源模型上进行了广泛的实验，证实了Visual Graph在图推理中的作用，以及其可以和文本模态相互增强。

论文地址：https://arxiv.org/abs/2402.02130

项目主页：https://v-graph.github.io/

在GITQA测试基准中，以LLaVA-7B/13B为基础微调出的多模态模型GITA-7B/13B，展示出了超越GPT-4V的图推理性能。

GITQA 多模态图推理问答数据集

研究团队通过将图结构绘制为不同风格的视觉图像，建立了GITQA数据集及其相应的测试基准，GITQA数据集包含超过423K个问答实例，每个实例包含相互对应的图结构-文本-视觉信息及其相应的问答对。

GITQA数据集包含两个版本：GITQA-Base和GITQA-Aug，其中GITQA-Base只包含单一风格的视觉图。

GITQA-Aug则更加丰富，它对视觉图进行了多种数据增强处理，包括改变布局、点的形状、边的宽度和点的风格等，从而提供了更多样化的视觉图表现。

如图1，GITQA测试基准包含8个具有代表性的图推理任务：Connectivity(判断图中两点是否联通)、Cycle(判断图中是否有环)、TS（寻找图的拓扑序）、 SP（寻找图中两点间的最短路径）、 MaxFlow（计算图中两点间的最大流）、 BGM（计算二分图的最大匹配）、 HP（寻找图中的哈密顿路径）和GNN（模拟GNN的消息传递）。

每个任务所对应的数据集都被按照图结构的复杂程度被划分为不同难度等级的子集（相关统计如表1）。

实验及结果

实验一: 基于不同模态图信息的模型的图推理能力对比

研究团队在GITQA-Base数据集上，根据不同的模态图输入类型（包括仅文本（T-Only）、仅视觉（V-Only）、以及文本加视觉（V+T）），评估了流行的闭源和开源大型语言模型（如GPT-4 turbo和Vicuna-7B/13B）以及大型多模态语言模型（如GPT-4V和LLaVA-7B/13B）的表现。如图2所示。