学界 | 提升DNN参数准确度:MILA提出贝叶斯超网络

百家 作者:机器之心 2017-10-16 04:37:38

选自arXiv

机器之心编译

参与:蒋思源、李泽南


深度神经网络(DNN)参数中简单而强大的贝叶斯推理(Bayesian inference)技术有可能大大扩展深度学习技术的应用范围。在现实世界的应用中,意外错误可能会造成危险和财产损失,而预料之内的问题则可以让智能体寻求人类的指导(以主动学习的形式),或是采取一些安全的默认行为(如关机)来进行规避。近日,来自蒙特利尔 MILA、Element AI 和麦吉尔大学等机构的学者共同提出了「贝叶斯超网络」,使用新方法提升了 DNN 参数的准确性。


通常情况下,DNN 被训练为寻找可能性最大的那个参数(频率学派的点估计),但这种方法忽略了实际情况下哪个参数才是最好的(参数不确定性),当可能的参数值置信度很高但与预测相反时,其可能会引发相对的不确定性。与之相反的是,贝叶斯 DNN 模型会对给定数据模型参数的全部后验分布建模(贝叶斯学派的后验分布),从而提供更好的校准置信度估算,达到更安全的目的。


贝叶斯 DNN 技术是一个不断发展的方向。近期大多数技术都集中于变分推理,并将变分后验(variational posterior)限制在简单的分布族之内,如高斯阶乘。然而,若从安全角度来看,变分似乎倾向于低估不确定性,因为 KL 散度(KL(q||p))更倾向于惩罚 q——当 p 的比重小时 q 的比重大,而 p 的比重大时则不给予比重。这个问题可能会因为使用后验分布族而加剧;例如,单峰近似后验只能捕捉单一模型的真实后验。考虑到这点,我们提出了学习灵活而强大后验的新方法,由 DNN 中的 h 为参数,它被称为贝叶斯超网络(Bayesian hypernetwork)。


贝叶斯超网络(BHN)采用服从标准正态 N(0,1) 的随机噪声作为输入,并为另一个 DNN(原网络)输出从近似后验概率 q(θ) 所采的样本。构建该模型的关键是使用可逆的超网络,这使得蒙特卡洛可以在变分推断训练目标中估计信息熵项 log(θ)。


在该论文中,我们先回顾了贝叶斯 DNN 已有的研究工作,并解释了我们方法的必要组件。然后我们解释了如何结合这些技术而构建贝叶斯超网络,以及我们在该项工作所做的设计和为平稳训练所构建的技术。最后,我们提出了验证 BHN 表征力的实验,并在后文展示了其在多个任务中的强大性能。


3 方法


我们在 3.1 节中描述了变分推断如何应用到贝叶斯深度网络中,并结合 2.2 节和 2.3 节所描述的内容进一步在 3.2 节中推导出贝叶斯超网络(Bayesian hypernets)。


3.1 变分推断


在变分推断中,目标是最大化数据的边缘似然度(marginal likelihood)下界,即 logp(D)。这涉及到估计统计模型的参数并逼近未观察到随机变量的后验分布(随机变量本身也可以是参数,例如在贝叶斯深度神经网络中)。令θ为可视为随机变量的贝叶斯参数,D 为观察数据的训练集,q(θ) 为逼近真实后验分布 p(θ|D) 的可学习分布。又因为 KL 散度总是非负的,那么对于任意 q(θ),我们有:


方程 2 不等号右边即数据边缘似然度的下界(ELBO)。计算方程 2 的数学期望在深度神经网络中可能比较困难,但我们可以通过蒙特卡洛采样进行估计与逼近。


3.2 贝叶斯超网络


贝叶斯超网络(Bayesian hypernets/BHNs)通过使用 DDGN 2.3 灵活地表达 q(θ),其中 h 可以将服从标准正态 N(0,1) 的随机噪声转化为从 q(θ) 抽取的独立样本。这使得计算蒙特卡洛估计 q 的期望变得更加简单,其中还包括 ELBO 及其导数,它们可以通过反向传播来训练 h。


这意味着 BHN 可以通过对 q(θ) 的采样而得到训练(方程 2)和评估,这令 q(θ) 可以很自然地表达生成模型。然而当 DDGN 方便采样时,计算 ELBO 的信息熵项(logq(θ))还需要评估生成样本的似然度,但最流行的 DDGN(如 VAE 和 GAN 等)并不容易做到这一点。通常这些模型可以是多对一映射,并且在计算给定参数值的似然度时需要对潜在噪声变量进行积分:


为了避免这个问题,我们使用了一个可逆的 h 而允许在计算 q(θ) 时使用简单的换元公式:



其中 q_ε为ε的分布。



图 4. 主动学习(Active learning):贝叶斯超网络在充分采集后在热启动(左)、随机采集函数(上/acquisition function)和 BALD 采集函数(下)上均超过了其他方法。相对于随机重启参数(右),热启动可以提升所有方法的稳定性,但可能会影响其他方法的性能。我们还注意到基线模型(无 dropout)的表现与 MCdropout 相近,且优于 Dropout 基线。


论文链接:https://arxiv.org/abs/1710.04759


在本论文中,我们提出了贝叶斯超网络:一种在神经网络中做近似贝叶斯推理的框架。贝叶斯超网络 h 是一个学习变换简单噪声分布的神经网络,将变换为在参数θ上另一个神经网络(「原神经网络」/primary network)的分布:我们用变分推理训练 q,使用可逆的 h 来通过采样来有效地估计后验 p(θ| D)上的变分下界。与贝叶斯深度学习的大多数方法相反,贝叶斯超网络可以表示复杂的多峰近似后验(multimodal approximate posterior)与参数之间的相关性,同时轻松实现独立同分布(i.i.d.)的 q(θ) 采样。我们展示了贝叶斯超网络的多种定性优势,其中它在一系列任务中实现了具有竞争力的表现(包括主动学习和异常检测)证明了评估模型不确定性的优势。


点击阅读原文,在 PaperWeekly 参与对此论文的讨论。


本文为机器之心编译,转载请联系本公众号获得授权

✄------------------------------------------------

加入机器之心(全职记者/实习生):hr@jiqizhixin.com

投稿或寻求报道:content@jiqizhixin.com

广告&商务合作:bd@jiqizhixin.com

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接