酷应用

现场报道 | CVPR 2017多个奖项公布：苹果公司获最佳论文

百家作者：机器之心 2017-07-23 01:09:23

机器之心报道

记者：QW、CZ

2017 年 7 月 21 日-26 日，CVPR 2017 在夏威夷火奴鲁鲁 Hawaii Convention Center 开幕。在昨日的文章中，我们盘点了国内的 CVPR 2017 两点文章。今日的主会上，CVPR 2017 多个奖项公布：包括两篇最佳论文、两篇最佳荣誉论文、一篇最佳学生论文，以及两个 PAMI 青年研究员奖。

机器之心的分析师来到了 CVPR 2017 大会现场，为大家报道有关大会的精彩内容。在今日的主会上，主办方对 CVPR 2017 的论文接收情况进行了介绍，同时也颁布了多个奖项。

机器之心在大会现场

据现场介绍，今年的 CVPR 共收到有效提交论文 2680 篇，其中 2620 篇论文经过完整评议，最终总计 783 篇被正式录取（占总提交数的 29%）。被接收的论文中，71 篇将进行长口头演讲，144 篇进行短亮点演讲。

相比入 CVPR 2016，从接收论文量到参会人数，CVPR 2017 都有极大地增长。

各届 CVPR 论文量

往届 CVPR 参会人数

CVPR 2017 主会上公布的这届大会的各个奖项如下：

CVPR 2017 最佳论文奖

Densely Connected Convolutional Networks by Gao Huang, Zhuang Liu, Laurens van der Maaten, & Kilian Q. Weinberger (Presented Sun July 23 in Oral 2-1A)
Learning from Simulated and Unsupervised Images through Adversarial Training by Ashish Shrivastava, Tomas Pfister, Oncel Tuzel, Joshua Susskind, Wenda Wang, & Russell Webb (Presented Sun July 23 in Oral 2-1A)

CVPR 2017 最佳荣誉论文奖

Annotating Object Instances with a Polygon-RNN by Lluís Castrejón, Kaustav Kundu, Raquel Urtasun, & Sanja Fidler (Presented Mon July 24 in Oral 3-1B)
YOLO9000: Better, Faster, Stronger by Joseph Redmon & Ali Farhadi (Presented Tues July 25 in Oral 4-2A)

CVPR 2017 最佳学生论文奖

Computational Imaging on the Electric Grid by Mark Sheinin, Yoav Y. Schechner, & Kiriakos N. Kutulakos (Presented Sun July 23 in Oral 2-1B)

CVPR 2017 Longuet-Higgins 奖

Object Retrieval with Large Vocabularies and Fast Spatial Matching by James Philbin, Ondrej Chum, Michael Isard, Josef Sivic & Andrew Zisserman

CVPR 2017 PAMI 青年研究员奖

Ross Girshick & Julien Mairal

值得一提的是，在宣布 CVPR 2017 PAMI 青年研究员奖由 Ross Girshick & Julien Mairal 获得时，现场响起了热烈的掌声。机器之心在第一天午休时，就对两位青年研究员获奖的看法对 CVPR 参会学者进行了了解。在 10 位受访学者中，其中 7 位表示过去了解过他们的工作，其中 4 位对他们的获奖给予了高度的肯定和认可。「Ross is one of the million!」——其中一位来自欧洲的受访学者表示自己非常欣赏 Ross 的工作，认为他获奖是众望所归。

Ross Girshick & Julien Mairal

以下是机器之心对两篇最佳论文、一篇最佳学生论文进行的摘要介绍。

两篇最佳论文

康奈尔与清华大学：Densely Connected Convolutional Networks

https://arxiv.org/abs/1608.06993
https://github.com/liuzhuang13/DenseNet

摘要：最近的研究工作表明，如果卷积神经网络在接近输入层和输出层的层级中包含较短的连接，那么 CNN 就能在训练上显著地变得更深、更精确和拥有更高的效率。在本论文中，我们接受了这一观察结果，并提出了密集卷积网络（Dense Convolutional Network /DenseNet），这种卷积神经网络以前馈的方式将每一层与其他层相连接起来。由于传统卷积神经网络 L 层间只有 L 个连接，每一个连接即为当前层和下一层之间的连接，但是 L 层我们这种密集连接型卷积网络有 L(L+1)/2 个直接连接。对于每一层来说，前面所有层神经网络的特征图谱（feature-maps）可以作为该层的输入，而该层自身的特征图谱可以作为之后所有的层的级的输入。DenseNet 有几个强劲的优点：该卷积网络减缓和梯度消失问题、强化了特征传播、支持特征重用（feature reuse）、并大大降低了参数数量。我们在四个极具竞争力的目标识别基准任务（CIFAR-10、CIFAR-100、SVHN 和 ImageNet）上评估了我们所提出的架构。DenseNet 在大多数任务中都在最佳性能的基础上有显著的提升，并且还只需要更少的内存和计算力。

图 1：A 5 层密集块（dense block），其中增长率（growth rate）k=4。每一层将前面所有特征图谱（feature-maps）作为输入。

图 2：带有三个密集块（dense block）的深度 DenseNet。两个相邻块之间的层级为转换层（transition layers），它通过卷积和池化改变特征图大小。

表1：对于ImageNet任务的DenseNet架构。前三个网络的增长率（growth rate）k=32，而对于DenseNet-161，k=48。

图 3. 在 ImageNet 分类数据集中 DenseNet 和 ResNet Top-1（单模型和）的误差率对比，左图是和已学习的参数的关系，右图是和浮点运算次数的关系。

图 4. 左图：DenseNet 变化中的参数效率对比。中间： DenseNet-BC（预激活）和 ResNets 的参数效率对比。DenseNet-BC 需要 1/3 的参数来完成类似精度。右图：1001-层的预激活 ResNet 的训练和测试曲线，超过 10M 参数，而且一个 100 层的 DenseNet 只有 0.8M 参数。

苹果公司：Learning from Simulated and Unsupervised Images through Adversarial Training

从 CoreML 到自动驾驶汽车，苹果的新技术探索在形成产品之前通常都会处于接近保密的状态，直到去年 12 月底，他们才以公司的名义发表了第一篇机器学习领域里的学术论文，介绍了自己在改善合成图像质量方面的研究。最近，这家以封闭而闻名的科技巨头突然宣布将以在线期刊的形式定期发表自己在机器学习方面的研究，该期刊介绍的第一篇论文获得了此届 CVPR 的最佳论文奖。

论文地址：https://arxiv.org/abs/1612.07828

随着图像技术的最新进步，在合成图像上对模型进行训练也变得更加易于处理，一定程度上避免了对昂贵标注的需求。然而，由于合成图像分布和真实图像分布之间存在差距，从合成图像中进行学习往往可能不会达到所期望的性能表现。为了减小这一差距，我们提出了模拟+非监督学习方法（Simulated+Unsupervised learning，S+U），任务就是通过使用非标注的真实数据来学习一个模型，从而增强模拟器输出的真实性，同时保留模拟器中的标注信息。我们开发出了一种 S+U 学习方法，使用类似于生成对抗网络的对抗型网络，用合成图像作为输入（而不是随机向量）。我们对标准 GAN 算法进行了几处关键性的修改，从而来保存标注，避免失真以及使训练稳定化：（i）一个「自正则化」项，（ii）一个局部对抗损失（local adversarial loss），以及（iii）使用改善图像的历史信息来对鉴别器进行更新。我们通过定性说明和用户研究，展示出了此结构能够生成高真实度的图像。我们通过训练视线估计（gaze estimation）和手势估计（hand pose estimation）的模型对生成图像进行了定量评估。我们在使用合成图像方面展现出了显著的提升效果，并且在没有任何已标注的真实数据的情况下，在 MPIIGaze dataset 数据集上实现了一流的结果。

图 1. 该任务是借助非标注的真实数据学习一个模型，从而提高来自模拟器的合成图像的真实度，同时保留其注解信息。

图 2. 我们的改善器神经网，R，最大限度地减少了局部对抗性损失函数与一个「自正则化」项（‘self-regularization’ term）的结合。对抗性损失函数「愚弄」鉴别器网络，D，后者负责区分一张图片的真假。自正则化项最小化了合成与改善图像之间的差别。改善器网络和鉴别器网络交替更新。

图 3. 局部对抗性损失函数的图式。鉴别器网络输出了一个 w × h 概率图。对抗性损失函数是局部图像快之间的交叉熵损失之和。

图4. 使用改善图像历史信息。

图 5.UnityEyes 视线评估数据集在 SimGAN 上的输出结果样例。（左）来自 MPIIGaze 的真实图像。我们的改善器网络在训练过程中未使用来自 MPIIGaze 数据集的任何标注信息。（右）改善器网络在 UnityEye 上的改善图像结果。从定性结果上看，改善后的合成图像的皮肤纹理和虹膜与真实图像的相似度高于其与合成图像的相似度。

图6. 彩色图像中特征空间的自正则化

图7. 基于外观的视线估计在MPIIGaze真实眼睛图像数据集上的定量评估结果。上图显示了在不同数量的训练样本中，误差度函数与真实的眼睛视线方向对比后的增长曲线。

图 8. 关于 NYU 手势的样本改善测试图像。（左）真实图像，（右）合成图像和精练器网络（refiner network）生成的相应的改善输出图像。真实图像中的噪点主要来源是精练器网络学习的非光滑的深度边界。

一篇最佳学生论文

以色列理工与多伦多大学：Computational Imaging on the Electric Grid

论文地址：http://webee.technion.ac.il/~yoav/publications/ACam_CVPR.pdf

摘要：交流电（AC）照明带了夜晚的节奏。通过观察这些节奏，我们发现了新的场景信息，包括场景中的灯泡类型、城市电网的电压、光传输矩阵（light transport matrix）。这些信息提供了反射与半反射的分层、夜间高动态范围图像，以及获取图像过程中未观察到的灯泡所在的场景。后者受益于我们收集和提供的多来源灯泡反应函数（bulb response functions）数据集。为了完成实验目标，我们开发了种新型的编码曝光高动态范围（codedexposure high-dynamic-range）图像技术，该技术专门设计在电网交流照明上。