酷应用

不被大神Hinton认同，否定现有同行成果，谷歌这篇烧脑研究最终拿下ICML2019最佳论文

百家作者：量子位 2019-06-12 03:04:31

晓查栗子安妮发自凹非寺
量子位出品 | 公众号 QbitAI

ICML 2019最佳论文来了！

今年，共有3424篇论文提交到这场一年一度的机器学习国际顶会上，大会共接收了774篇。有两篇论文，从千军万马中脱颖而出，成为ICML 2019最佳论文。

这份大奖花落谁家？谷歌等一篇名为《挑战无监督分离式表征的常见假设》的论文，表明 (没有归纳偏置的) 无监督方法学不到可靠的分离式表征 (Disentangled Representations) 。

这项极富智慧和勇气的研究，几乎全面否定了现有的同行成果，也证明Hinton曾经的观点有问题：

另一篇为《稀疏变分高斯过程回归的收敛速率》，作者为剑桥大学的3位研究人员。

详细看今年的最佳研究：

最佳论文1：分离式表征，没法无监督学习

先用一句话概括一下：谷歌大脑、ETH苏黎世、马普所组成的团队测试了12,000个模型，对现有的无监督分离式表征学习研究，发出了严重的质疑。

理解高维数据，用无监督的方式，把知识蒸馏成有用的表征，是深度学习的一个重要挑战。

一种方法是利用分离式表征 (disentangled representation) ：

模型可以捕捉到各种相互独立的特征，如果其中一个特征改变了，其他特征不会受到影响。

这样的方法一旦成功，就可以做出真实世界里也能用的机器学习系统，不论是给机器人，还是给自动驾驶车，以便应对训练中没见过的场景。

不过，在无监督的分离式表征学习上，新近的研究都很难看出这些方法到底有多好，局限又有多大。

谷歌AI团队给各种新近的成果，做了一个大规模的评估。评估结果对现有研究提出了严肃的挑战。并且给分离式学习日后的研究，提供了一些建议。

什么叫大规模的评估？谷歌团队训练了12,000个模型，覆盖了目前最重要的方法，以及评估指标。

重要的是，评估过程中用到的代码，以及10,000个预训练模型，都已经放出了。

它们共同组成了一个巨大的库，叫做disentanglement_lib。让后来的研究人员，可以轻松站到前人的肩膀上。

大规模测试过后，谷歌发现了两个重大的问题：

1、并没有发现任何经验证据，显示无监督方法可以学到可靠的分离式表征，因为随机种子和超参数似乎比模型的选择 (Model Choice) 更重要。

也就是说，就算训练了大量的模型，一部分得出了分离式表征，也很难在不看ground truth标签的情况下把这些表征找出来。

除此之外，好用的超参数值，也并没有在多个数据集里都好用。

谷歌团队说，这些结果吻合了他们提出的定理：

在数据集和模型没有归纳偏置 (Inductive Biases) 的情况下，用无监督的方法学习分离式表征是不可能的。

换句话说，必须要在数据集和模型上，加个前提。

2、在参加评估的模型和数据集上，并没有证实分离式表征对下游任务有帮助，比如：没有证据表明用了分离式表征，AI就可以用更少的标注来学习。

给后来者的建议是：

1、鉴于理论结果证实，不带归纳偏置 (Inductive Biases) 的、无监督学习的分离式表征是不可能实现的，未来的研究应该清楚地描述出归纳偏置，以及隐式和显式的监督方式。

2、为跨数据集的无监督模型选择，找到好用的归纳偏置，是一个非常关键的问题。

3、用了分离式表征学习之后的产生的具体优势，应该要证明出来。

4、实验，应该有可以复现的实验设定，在多种多样的数据集里适用。

顺便提一句，这是一项中选了ICLR 2019 workshop的研究，却最终成了ICML的最佳论文。

最佳论文2：稀疏变分高斯过程回归的收敛速率

今年ICML的第二篇最佳论文是来自英国剑桥大学和机器学习平台Prowler.io的研究。

之前已经有人开发出了一种高斯过程后验的极好变分近似。避免出现数据集大小为N，计算时间复杂度为O(N³)的情况，将计算成本降低到O(NM²)，其中M是一个远小于N的数。

虽然计算成本对于N是线性的，但算法的真正复杂度取决于如何增加M以确保一定的近似质量。

本文通过描述向后KL散度（相对熵）上界的行为来解决这个问题。研究者证明，若M比N增长得更慢，KL散度很有可能会变得任意小。一个特例是，对于在具有常见的平方指数核的D维正态分布输入的回归，只要M = O(log_DN)就足够保证收敛了。

结果表明，随着数据集的增长，高斯过程后验概率可以被非常容易地近似，并为如何在连续学习场景中增加M提供了一种具体的规则。

研究者证明了，从稀疏广义回归变分近似到后验广义回归的KL散度的边界，它只依赖于之前核的协方差算子特征值的衰减。

这个边界证明训练数据集中在一个小区域的光滑核允许高质量、非常稀疏的近似。当M≪N时，真正稀疏的非参数推断仍然可以提供对边界似然性和逐点后验的可靠估计。

本文作者在最后指出，具有非共轭可能性的模型的扩展，尤其是在Hensman等人的框架中由稀疏性引入的附加误差，为未来的研究提供了一个有前景的方向。

这篇文章的第一作者是来自剑桥大学信息工程系的博士研究生David Burt，他的主要研究领域是贝叶斯非参数和近似推理。

作者之一Mark van der Wilk是Prowler.io的研究者，他也是剑桥大学机器学习专业的在读博士研究生，主要的研究领域是贝叶斯推理、强化学习、高斯过程模型等。

7篇最佳论文提名

除了2篇最佳论文外，还有7篇论文获得最佳论文提名，分别为：

1、Analogies Explained: Towards Understanding Word Embeddings（爱丁堡大学）

论文地址：
https://arxiv.org/abs/1901.09813

2、SATNet: Bridging deep learning and logical reasoning using a differentiable satisfiability solver（CMU、南加州大学等）

论文地址：
https://arxiv.org/abs/1905.12149

3、A Tail-Index Analysis of Stochastic Gradient Noise in Deep Neural Networks（巴黎萨克雷大学等）

论文地址：
https://arxiv.org/abs/1901.06053

4、Towards A Unified Analysis of Random Fourier Features（牛津大学、伦敦过国王学院）

论文地址：
https://arxiv.org/abs/1806.09178

5、Amortized Monte Carlo Integration（牛津大学等）

论文地址：
http://www.gatsby.ucl.ac.uk/~balaji/udl-camera-ready/UDL-12.pdf
6、Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning（MIT、DeepMind、普林斯顿）
论文地址：
https://arxiv.org/abs/1810.08647

7、Stochastic Beams and Where to Find Them: The Gumbel-Top-k Trick for Sampling Sequences Without Replacement（荷兰阿姆斯特丹大学等）

论文地址：
https://arxiv.org/abs/1903.06059