酷应用

教大模型自己跳过“无用”层，推理速度×3性能不变，谷歌MIT这个新方法火了

百家作者：量子位 2022-07-25 10:54:22

萧箫发自凹非寺
量子位 | 公众号 QbitAI

大语言模型用着爽，但推理速度实在太慢了？

而且，增加模型体积，推理效果也并不一定就比之前更好。

为了解决这一问题，谷歌MIT的研究人员提出了一个新框架CALM，让它自己来决定计算量。

如果CALM意识到某些层“可有可无”，那么它在计算时就会跳过这些层。

论文被po到网上后，立刻火了一波：

有网友表示，我们就是需要这样更智能和自适应的模型，显然CALM的解码器已经做到了：

直接用中间层输出结果

CALM全称Confident Adaptive Language Modeling，即置信自适应大语言模型。

这一模型基于Transformer架构，为了加速它的计算，研究人员提出了一个名叫“提前退出”（early exiting）的方法，让模型根据不同的输入，动态决定要用多少层网络来计算。

也就是说，在计算的过程中，模型不需要经过每一层计算再输出结果，而是能直接用中间层的特征输出token，从而降低模型计算量。

所以，模型如何决定“退出”的时机呢？

这就需要训练模型学会自己判断了。

其中，Yfull是标准模型输出的结果，Yearly是模型“提前退出”时输出的结果。为了让Yearly的效果更好，就需要尽可能让它与Yfull保持一致。

当然，不同的任务对于文本输出一致性也有不同的要求，例如对生成结果要求没那么严格（可以生成更多样的语句）的任务，对于Yfull和Yearly的一致性要求就没那么高。

因此作者们也在论文中给出了两个不同的公式，可根据实际情况选用：

在实际操作上，论文通过设置一个局部的token置信度，来检查其对整个生成序列的影响。

模型在解码过程中，会计算每一层的置信度c，并将它与达到“提前退出”的阈值λ相比，如果c大于λ，则模型“提前退出”。

所以，这样的模型实际测试效果究竟如何？

归纳翻译QA任务表现都不错

论文在CNN/DM、WMT和SQuAD三个数据集上进行了测试。

其中，CNN/DM是一个新闻文章数据集，需要输出一个几句话概括文章的结果；WMT15 EN-FR是一个机器翻译数据集，主要是法译英句子的结果；Open-book SQUAD 1.1则是一个根据维基百科提问的QA数据集。

据一作Tal Schuster介绍，在保持相同性能的情况下，CALM使用的解码器层数平均比之前降低了3倍。

对于这篇论文，有网友表示赞同：模型确实不需要总是“长时间深入思考”，有时候几层就能推理出正确答案了。

据作者表示，这一加速解码的思路，适用于任何Seq2seq模型。

作者介绍

这篇论文的作者一共有8个人，分别来自谷歌和MIT CSAIL，其中主要负责人有两位，Tal Schuster和Adam Fisch。

Tal Schuster博士毕业于MIT，目前是谷歌的高级研究员，研究方向是机器学习模型的鲁棒性、可靠性和效率提升。

Adam Fisch，MIT在读博士生，本科毕业于普林斯顿大学，研究方向是机器学习量化不确定性、少样本学习等。

对大语言模型推理加速感兴趣的小伙伴，可以戳论文地址详细了解。

论文地址：
https://arxiv.org/abs/2207.07061

参考链接：
https://twitter.com/TalSchuster/status/1547966142412513282

— 完 —

「人工智能」、「智能汽车」微信社群邀你加入！

欢迎关注人工智能、智能汽车的小伙伴们加入我们，与AI从业者交流、切磋，不错过最新行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里

关注公众号：拾黑（shiheibook）了解更多

[广告]赞助链接：

四季很好，只要有你，文娱排行榜：https://www.yaopaiming.com/
让资讯触达的更精准有趣：https://www.0xu.cn/

*文章为作者独立观点，不代表爱尖刀立场

本文由量子位发表，转载此文章须经作者同意，并请附上出处( 爱尖刀 )及本页链接。

原文链接 https://www.ijiandao.com/2b/baijia/438186.html

谷歌 Google 大模型

图库

有些人身怀戾气是因为从未被温柔以待。

成雪茹消失的膝盖骨

小嘟娜donna：雪下的时候是思念的汹涌。

未婚妻bobo：出镜：@未婚妻bobo

咪咪iny日记便宜的衣服咪咪贵贵穿好显白！！

米菲兔：#AI温柔自拍 #抖音ai创作

量子位

关注网络尖刀微信公众号
随时掌握互联网精彩

赞助链接

百度热搜榜

排名热点搜索指数

1 习近平将发表二〇二六年新年贺词 7904141

2 2026年国补政策来了 7808738

3 东部战区：开火！开火！全部命中！ 7712893

4 2026年这些民生政策将惠及百姓 7616985

5 小学食堂米线过期2.5小时被罚5万 7519709

6 解放军喊话驱离台军原声曝光 7428214

7 为博流量直播踩烈士陵墓？绝不姑息 7327605

8 每月最高800元！多地发放养老消费券 7238391

9 数字人民币升级 1月1日起将计付利息 7141831

10 2026年1月1日起一批新规将施行 7040675

教大模型自己跳过“无用”层，推理速度×3性能不变，谷歌MIT这个新方法火了

萧箫 发自 凹非寺量子位 | 公众号 QbitAI

直接用中间层输出结果

归纳翻译QA任务表现都不错

作者介绍

萧箫发自凹非寺
量子位 | 公众号 QbitAI