酷应用

性价比超高：苹果发布了新数据集，助力室内场景理解

百家作者：AI100 2021-08-17 15:00:04

作者：刘媛媛

来源：数据实战派

前言

计算机视觉界一直渴望能够找到一种方法，让计算机和人们都能够理解室内场景的复杂性。

对于许多基本的场景理解任务，很难或不可能从真实图像中获得每像素地面实况标签。

一部分研究人员选择通过使用交互式的模拟环境建立没有真实标签的合成数据集，推动了对整体环境理解研究的快速发展。

然而，现有的合成数据集和模拟器具有一些局限性，无法满足研究者的要求，存在的问题主要有：

合成数据集是由非公开的 3D 模型产生的，并且不提供渲染时所使用到的底层三维资源。这类数据集的用途非常有限，因为它们缺少几何学习问题所需的重要信息，例如网格形式的三角形或其他几何类型。
合成数据集通常无法在其数据中提供语义分段。这意味着这些片段虽然将像素组合在了一起，但在语义上却不是有意义的一组对象。这类数据集还缺乏使得计算机程序或人们理解哪些集群更加重要的能力。
大多数的合成数据集和模拟器都没有将图像分解成独立的光照组件和着色组件，这使得它们不能够用于研究反向渲染的问题。没有任何现成的合成数据集或模拟器能够解决所这些问题，包括那些为了更好地理解室外场景而开发的数据集。

Hypersim介绍

为了解决目前合成数据集的这些问题，苹果的研究人员开发了一个名为 “Hypersim” 的数据集，它是一种用于整体室内场景理解的照片级合成数据集。数据集介绍论文题为 Hypersim: A Photorealistic Synthetic Dataset for Holistic Indoor Scene Understanding （“数据实战派”后台回复 “appledata” 获取论文下载链接）。

图1.从Hypersim数据集中随机选择的图像。

从 Hypersim 数据集中随机抽取几幅图像，由图 1 可以看出该数据集中的场景是非常多样的。

为了创建 Hypersim 数据集，苹果公司的研究人员使用了由专业艺术家创建的大量合成场景库，并且采用的视图采样启发式算法生成信息丰富的视图，使得 Hypersim 数据集不需要对场景进行语义标记。苹果公司的研究人员一共生成了 461 个室内场景的 77400 张图像，并且带有详细的像素标签和相应的地面真实几何图形信息。

图2 Hypersim数据集中的信息

Hypersim 数据集中每幅图像都具有额外的公开信息，例如如图2所示，对于每个彩色图像（ a ）， Hypersim 数据集中都具有以下信息：深度（ b ）；表面法线（ c ）；实例级语义分割（ d ， e ）；漫反射系数（ f ）；漫射照明（ g ）以及非漫反射残余图像，光泽表面和镜面反射高光（ h ）。其中，数据集中的漫反射、漫照明和非漫反射残差层存储为 HDR 格式，可以通过组合精确的重建原彩色图像。

Hypersim数据集可以提供具有高分辨率纹理和动态照明的真实3D场景

Hypersim 数据集除了对所有图像进行密集的逐像素语义实例分割外，还包含了每个图像的完整场景几何、材料和照明信息。这些特点使 Hypersim 数据集非常适合用于需要直接 3D 监督的几何学习问题、需要在多个输入和输出模式上联合推理的多任务学习问题以及逆向渲染问题。

苹果的研究人员从场景、对象和像素级别分析了 Hypersim 数据集，并在资金、注释工作和计算时间等方面分析了 Hypersim 数据集生成成本，在这一点上，他们又有惊人发现：从零开始生成整个数据集是可能的，而且其成本大约是训练最先进的自然语言处理模型的一半，用来生成数据集的所有代码都可以在线获得。

在论文中，苹果团队将这一新的数据集与以前的室内场景理解数据集和模拟数据进行了详细比较。这些数据集可以大致分为真实数据集（即基于真实传感器的三维网格重建）、合成数据集和模拟数据（即艺术家创建的），并按时间顺序在每个类别中进行排序。

如上图所示，Hypersim 是第一个包括图像、 3D 资源、语义实例分割和分解图像表示的数据集。

下图是该数据集的 computational pipeline 的主要步骤简化图。可以看到，这个 pipeline 将三角形网格、定义相机姿势和 V-ray 场景描述文件作为输入，并生成一组带有 ground truth 值标签和相应几何体的图像作为输出。主要步骤为首先估计场景中的自由空间，使用此估计生成无碰撞摄影机轨迹，修改 V-ray 场景以包含轨迹，并调用云渲染系统渲染图像。与 pipeline 的其余部分并行的是，使用交互式工具注释场景的三角形网格。在后处理步骤中，将网格注释到渲染图像（未显示）。视图采样启发式算法可以生成信息丰富的视图，而不需要对场景进行语义标记。这种 pipeline 设计使团队能够在网格注释完成之前渲染图像，还能重新注释场景（例如使用不同的标签集），而无需再次渲染图像。

在论文中，研究团队表示，相信 Hypersim 这个数据集可以帮助相关的研究者在一系列计算机视觉问题上取得进展。

例如，由于数据集中的图像具有很高的照片真实感，因此这个数据集还可以为 sim2real 传输问题带来新的见解和观点。最后，这项研究除了贡献了这一特定数据集之外，苹果也看到了真实照片合成数据在计算机视觉中的许多潜在应用，相信未来还有大量机会可供研究者共同设计渲染算法和学习算法，以更有效地分摊数据集开发过程中的渲染成本。