酷应用

学界 | 提升DNN参数准确度：MILA提出贝叶斯超网络

百家作者：机器之心 2017-10-16 04:37:38

选自arXiv

机器之心编译

参与：蒋思源、李泽南

深度神经网络（DNN）参数中简单而强大的贝叶斯推理（Bayesian inference）技术有可能大大扩展深度学习技术的应用范围。在现实世界的应用中，意外错误可能会造成危险和财产损失，而预料之内的问题则可以让智能体寻求人类的指导（以主动学习的形式），或是采取一些安全的默认行为（如关机）来进行规避。近日，来自蒙特利尔 MILA、Element AI 和麦吉尔大学等机构的学者共同提出了「贝叶斯超网络」，使用新方法提升了 DNN 参数的准确性。

通常情况下，DNN 被训练为寻找可能性最大的那个参数（频率学派的点估计），但这种方法忽略了实际情况下哪个参数才是最好的（参数不确定性），当可能的参数值置信度很高但与预测相反时，其可能会引发相对的不确定性。与之相反的是，贝叶斯 DNN 模型会对给定数据模型参数的全部后验分布建模（贝叶斯学派的后验分布），从而提供更好的校准置信度估算，达到更安全的目的。

贝叶斯 DNN 技术是一个不断发展的方向。近期大多数技术都集中于变分推理，并将变分后验（variational posterior）限制在简单的分布族之内，如高斯阶乘。然而，若从安全角度来看，变分似乎倾向于低估不确定性，因为 KL 散度（KL(q||p)）更倾向于惩罚 q——当 p 的比重小时 q 的比重大，而 p 的比重大时则不给予比重。这个问题可能会因为使用后验分布族而加剧；例如，单峰近似后验只能捕捉单一模型的真实后验。考虑到这点，我们提出了学习灵活而强大后验的新方法，由 DNN 中的 h 为参数，它被称为贝叶斯超网络（Bayesian hypernetwork）。

贝叶斯超网络（BHN）采用服从标准正态 N(0,1) 的随机噪声作为输入，并为另一个 DNN（原网络）输出从近似后验概率 q(θ) 所采的样本。构建该模型的关键是使用可逆的超网络，这使得蒙特卡洛可以在变分推断训练目标中估计信息熵项 log(θ)。

在该论文中，我们先回顾了贝叶斯 DNN 已有的研究工作，并解释了我们方法的必要组件。然后我们解释了如何结合这些技术而构建贝叶斯超网络，以及我们在该项工作所做的设计和为平稳训练所构建的技术。最后，我们提出了验证 BHN 表征力的实验，并在后文展示了其在多个任务中的强大性能。

3 方法

我们在 3.1 节中描述了变分推断如何应用到贝叶斯深度网络中，并结合 2.2 节和 2.3 节所描述的内容进一步在 3.2 节中推导出贝叶斯超网络（Bayesian hypernets）。

3.1 变分推断

在变分推断中，目标是最大化数据的边缘似然度（marginal likelihood）下界，即 logp(D)。这涉及到估计统计模型的参数并逼近未观察到随机变量的后验分布（随机变量本身也可以是参数，例如在贝叶斯深度神经网络中）。令θ为可视为随机变量的贝叶斯参数，D 为观察数据的训练集，q(θ) 为逼近真实后验分布 p(θ|D) 的可学习分布。又因为 KL 散度总是非负的，那么对于任意 q(θ)，我们有：

方程 2 不等号右边即数据边缘似然度的下界（ELBO）。计算方程 2 的数学期望在深度神经网络中可能比较困难，但我们可以通过蒙特卡洛采样进行估计与逼近。

3.2 贝叶斯超网络

贝叶斯超网络（Bayesian hypernets/BHNs）通过使用 DDGN 2.3 灵活地表达 q(θ)，其中 h 可以将服从标准正态 N(0,1) 的随机噪声转化为从 q(θ) 抽取的独立样本。这使得计算蒙特卡洛估计 q 的期望变得更加简单，其中还包括 ELBO 及其导数，它们可以通过反向传播来训练 h。

这意味着 BHN 可以通过对 q(θ) 的采样而得到训练（方程 2）和评估，这令 q(θ) 可以很自然地表达生成模型。然而当 DDGN 方便采样时，计算 ELBO 的信息熵项（logq(θ)）还需要评估生成样本的似然度，但最流行的 DDGN（如 VAE 和 GAN 等）并不容易做到这一点。通常这些模型可以是多对一映射，并且在计算给定参数值的似然度时需要对潜在噪声变量进行积分：

为了避免这个问题，我们使用了一个可逆的 h 而允许在计算 q(θ) 时使用简单的换元公式：

其中 q_ε为ε的分布。

图 4. 主动学习（Active learning）：贝叶斯超网络在充分采集后在热启动（左）、随机采集函数（上/acquisition function）和 BALD 采集函数（下）上均超过了其他方法。相对于随机重启参数（右），热启动可以提升所有方法的稳定性，但可能会影响其他方法的性能。我们还注意到基线模型（无 dropout）的表现与 MCdropout 相近，且优于 Dropout 基线。

论文链接：https://arxiv.org/abs/1710.04759

在本论文中，我们提出了贝叶斯超网络：一种在神经网络中做近似贝叶斯推理的框架。贝叶斯超网络 h 是一个学习变换简单噪声分布的神经网络，将变换为在参数θ上另一个神经网络（「原神经网络」/primary network）的分布：我们用变分推理训练 q，使用可逆的 h 来通过采样来有效地估计后验 p（θ| D）上的变分下界。与贝叶斯深度学习的大多数方法相反，贝叶斯超网络可以表示复杂的多峰近似后验（multimodal approximate posterior）与参数之间的相关性，同时轻松实现独立同分布（i.i.d.）的 q(θ) 采样。我们展示了贝叶斯超网络的多种定性优势，其中它在一系列任务中实现了具有竞争力的表现（包括主动学习和异常检测）证明了评估模型不确定性的优势。