酷应用

Hinton、Yann LeCun、李飞飞谈深度学习十年：AI没有走入死胡同，“革命”仍如火如荼

百家作者：大数据文摘 2022-09-17 17:59:40

大数据文摘授权转载自AI前线

作者：Sharon Goldman

译者：核子可乐

策划：冬梅

2022 年，当我们回望这生机勃勃、万物竞发的 AI 黄金十年，新的问题涌上心头：我们可以从这十年来的深度学习发展之路中总结出什么？这一颠覆世界的革命性技术，未来又将何去何从？

人工智能（AI）先驱 Geoffrey Hinton 是十年前深度学习初创“革命”的开拓者之一。在他看来，未来 AI 技术的发展势头仍将一路加速。

2012 年，为 AI 带来首个重大突破的关键神经网络研究横空出世。而值此十周年纪念日之际，Hinton 和其他几位 AI 杰出人士再度发声，回击了部分批评者提出的深度学习已经“走进死胡同”的观点。

Hinton 表示，“我们将看到机器人技术的巨大进步 —— 更灵巧、更敏捷、更顺从的机器人即将诞生。它们可以像人类一样高效、温和地处理工作。”

其他 AI 先驱者，包括 Meta 公司首席科学家兼 AI 负责人 Yann LeCun，以及斯坦福大学教授李飞飞，也对 Hinton 的观点表示赞同。几位大佬都认定，2012 年在 ImageNet 数据库上的开创性研究结果（基于以往的工作成果，成功解锁计算机视觉乃至整体深度学习的全面进步）确实将深度学习推向了主流，并引发了一股难以阻挡的历史洪流。

LeCun 在接受外媒 VentureBeat 采访时提到，挡在 AI 前进道路上的种种阻碍，正以惊人的速度被加快扫除。连他自己都感叹，“过去四五年的技术发展速度令人惊讶。”

而 2006 年建立起 ImageNet（首个用于计算机视觉算法的大规模人工标注照片数据集）的李飞飞，也在接受采访时提到，2012 年以来，这场浩浩荡荡的深度学习发展大潮是“一场我做梦也无法想象的惊人革命”。

然而，木秀于林风必摧之。

耀眼的光环之下，也有尖锐的批评者认为深度学习存在很大局限，并认为这项技术的应用范围极其狭窄。反对者还强调，神经网络的本质上其实是又一场技术炒作，并不像某些支持者说的那样有能力带来根本性的突破。换言之，他们完全不认可“它是最终帮助我们达成期望中的「人工通用智能」（AGI）的基础，即具备与人类相当的推理能力的 AI”这一论断。

万物竞发的 AI 黄金十年

纽约大学名誉教授、Robust.AI 创始人兼 CEO Gary Marcus 曾在去年 3 月写下一篇关于“深度学习走进‘死胡同’”的文章。在他看来，这项技术虽然取得了不错的进展，但“卡在了关于物理世界的常识知识与推理这一环，再难寸进”。

华盛顿大学计算语言学教授、时常批评这场“深度学习泡沫”的 Emily Bender 则表示，她认为目前的自然语言处理（NLP）和计算机视觉模型，并不能算是“迈向人工智能和人工通用智能的实质性脚步”。

无论如何，批评者也必须承认，计算机视觉和语言等关键应用确实取得了巨大进步。这也引得成千上万家企业争相利用深度学习的力量，进而在推荐引擎、翻译软件、聊天机器人等领域带来令人印象深刻的现实成果。

然而，其中也有不少必须直面的严肃争论。例如，AI 领域还有不少伦理和偏见等基本问题需要解决，治理者也需要监管 AI，以保护公众在就业、医疗保健和监控等领域免受歧视。

2022 年，当我们回望这生机勃勃、万物竞发的 AI 黄金十年，新的问题涌上心头：我们可以从这十年来的深度学习发展中总结出什么？这一颠覆世界的革命性技术，未来又将引何去何从？

Geoffrey Hinton

AI 先驱们早已预见到这场革命的到来

Hinton 称，他一直都知道深度学习“革命”即将到来。

Hinton 在 1986 年发表的论文中普及了用于训练多层神经网络的反向传播算法。他表示，“有很多研究者都相信，这就是人工智能的未来。我们则一直在努力证明自己的这一论断、证明自己所相信的东西。”

1989 年率先使用反向传播和卷积神经网络的 LeCun 也对此表示赞同。他谈到，“我丝毫也不怀疑未来的 AI，采用的仍然是我们八十和九十年代开发出的相关技术。”

与当时的主流观念相反，Hinton 和 LeCun 等人坚持认为，多层神经网络等深度学习架构可以应用于计算机视觉、语音识别、NLP 和机器翻译等领域，进而产生近似甚至超越人类专家的表现。他们驳斥了那些抵触他们研究成果的批评者，强调反向传播与卷积神经网络等算法技术将成为推动 AI 进步的关键。不过当时学术界的普遍消极情绪也可以理解，毕竟在经历了八十和九十年代的一系列挫折之后，AI 技术已经长期停滞不前。

与此同时，担任斯坦福大学以人为本 AI 研究院联合主任、前谷歌 AI 与机器学习首席科学家的李飞飞，也同样对自己的假设充满信心。她认为只要配合正确的算法，ImageNet 数据库完全能够推动计算机视觉与深度学习的跨越式发展。

她解释道，“这是一种典型的开箱即用式机器学习思维方式，也对应着很高的风险。但我们在科学意义上相信自己的假设。”

但这一切仍然有待时间的检验。这些经过数十年 AI 研究发展起来的理论，直到 2012 年秋才完全证明了自己。一场重大突破，最终引发了得到公认的深度学习革命。

2012 年 10 月，Hinton 的两位博士生 Alex Krizhevsky 和 Ilya Sutskever 参加了由李飞飞组织的 ImageNet 竞赛，尝试为大规模对象检测与图像分类设计出可行的算法。师生三人凭借一篇题为《使用深度卷积神经网络实现 ImageNet 数据库分类》的论文最终胜出。该论文使用 ImageNet 数据库创建了一个名为 AlexNet 的开创性神经网络。而且事实证明，该模型在各种图像的分类方面都要比以往任何方法准确得多。

这篇令 AI 研究界赞叹不已的论文仍然站在早期突破的肩膀之上，再配合上 ImageNet 数据集和更强大的 GPU 硬件，直接开宗立派，为日后 Google Photos、Google Translate、Uber、Alexa、DALL-E 乃至 AlphaFold 翻开了历史进程的崭新一页。

此后，对 AI 技术的投资呈现出指数级增长：全球 AI 初创资金从 2011 年的 6.7 亿美元增长至 2020 年的 360 亿美元，并于 2021 年再次翻番达到 770 亿美元。

那一年，神经网络成为主流

经历了 2012 年震惊全球的 ImageNet 竞赛，媒体开始全力跟进深度学习的发展趋势。

ImageNet 竞赛次月《纽约时报》发表的文章《科学家们在深度学习项目中看到了希望》提到，“科技企业报告称，通过一种受人脑模式识别理论的启发，新型 AI 技术已经在诸多领域取得惊人进展，包括计算机视觉、语音识别乃至发现有前途的药物新分子等。”文章还补充称，“这种被称为人工神经网络，或简称为神经网络的新技术，采用与人脑相似的神经连接结构，成功推动深度学习程序在速度与准确性方面达到一个又一个新高度。”

这一年，AlexNet 并不是深度学习领域唯一的超级明星。2012 年 6 月，谷歌 X 实验室的研究人员也构建了一个由 16000 个处理节点组成的神经网络，包含 10 亿个连接。随着时间推移，它开始总结出“猫”的特征，进而准确识别出 YouTube 视频中出现的小猫形象。

与此同时，Jeffrey Dean 和吴恩达也在 Google Brain 的大规模图像识别方面取得了突破。在 2012 年的 IEEE 计算机视觉与模式识别会议上，研究人员 Dan Ciregan 等人再次显著提高了卷积神经网络在多个图像数据库上的最佳性能。

Hiton 总结道，到 2013 年，“几乎所有计算机视觉研究都转向了神经网络。”从那时起，他也开始奔走于多伦多大学和谷歌研究院。这是 AI 研究自 2007 年以来的一场重大变革，“在此之前，每次技术会议最多只会接收一篇关于深度学习的论文。”

李飞飞

深度学习的十年发展历程

作为深度学习历史性突破的亲历者，李飞飞在 2012 年那场 ImageNet 竞赛上亲自公布了获胜选手。接下来十年深度学习的走势，也在意大利佛罗伦萨的会议现场被正式定义。

李飞飞提到，“ImageNet 的构想始于 2006 年，但当时几乎没人支持。

然而，最终它还是以光芒万丈的方式获得了认可和回报。”

自 2012 年开始，深度学习的发展速度惊人，学习模型的“深度”也开始不断打破纪录。

LeCun 表示“不少挡在 AI 发展道路上的阻碍被快速扫除”，于是自然语言理解、文本生成翻译和图像合成等应用领域全面起飞。

其中部分领域的发展速度甚至比预期更快。对 Hinton 来说，基于神经网络的机器翻译特别令人印象深刻，而这方面尝试其实始于 2014 年。“我原本以为不会那么快。”另一方面，李飞飞也对 DALL-E 赞赏有加，表示“进展比我想象中更快。”

敬告深度学习批评者

然而，并不是所有人都愿意为深度学习的进展而鼓掌喝彩。

2012 年 11 月，纽约大学名誉教授、Robust.AI 创始人兼 CEO Gary Marcus 就为《纽约客》撰写了一篇文章，表示“套用一句古老的寓言——Hinton 造了一把好梯子，但无论多好的梯子都没法让人登上月球。”

Marcus 甚至断言，时至今日，深度学习完全没能让 AI 比十年前更接近“月球”——也就是万众期待的人工通用智能，或者说能力与人类相当的 AI。

“技术方面的进步当然客观存在，但要想成功登月，必须解决因果理解和自然语言理解 / 推理的问题。深度学习在这些方向上并没有太大进展。”

Marcus 还提到，他认为将神经网络与符号人工智能（在深度学习兴起之前，在领域中占主导地位的 AI 分支）相结合的混合模型，才是突破神经网络极限的正确方向。

但 Hinton 和 LeCun 各自驳斥了 Marcus 的批评意见。

Hinton 表示“深度学习并没有走进死胡同——只要看看最近发生的一切，就能感受到它的蓬勃力量。”但他也承认，深度学习所能解决的问题确实还比较有限。

LeCun 则补充称，“我觉得压根不存在什么死胡同，只是前进道路上还有需要扫除的障碍。我们目前不太清楚要怎么扫除，但深度学习的进展没有放缓……如果非要说的话，反而是在一路加速。”

但反对派的 Bender 对此并不买账。她在邮件采访中强调，“在某种程度上，他们讨论的还是根据 ImageNet 等基准数据集提供的标签，对图像进行分类的所谓进展。2012 年确实是个历史性的突破点，但除此以外的其他宏大目标还完全没有被攻克，属于典型的雷声大雨点小。”

AI 偏见与伦理问题已迫在眉睫

Bender 还认为，AI 和深度学习技术已经在不知不觉中走得太远。“我相信超大规模数据集确实能为 AI 模型带来强大的能力，通过算力加高效算法的方式生成合成文本和图像。但这方面的成功形成了强大的发展惯性，于是研究者们似乎陷入了一种循环——人们「发现」模型存在偏见，于是尝试去消除这些偏见。但大家都知道，时至今日也不存在真正无偏见的数据集或者 AI 模型。”

此外，她“希望看到 AI 领域能贯彻真正的问责标准，包括测试评判、经验主张乃至产品安全。为此，我们需要帮助民众理解 AI 技术、看穿炒作宣传，我们需要行之有效的监管手段。”

但 LeCun 不这么看，他认为“这些诉求的实质，都是人们想要对复杂的重要问题进行粗暴简化”，而且很多人会做“有罪推定”。他坚持强调，大多数企业“其实都是想做正确的事”。

再有，他还抱怨了那些不愿参与 AI 技术研究、却每天大放厥词的批评者。

“那些身在场外指指点点的家伙甚至形成了自己的完整生态系统。但除了扰乱关注之外，他们起不到任何积极的作用。”

关于深度学习的争论还将继续

争论气氛看似紧张，但李飞飞强调这都是科学研究领域内的正常讨论。她解释称，“科学并不是真理，科学是寻求真理的过程。过程中必然有发现也有改进，所以争论、批评和喝彩都是必不可少的环节。”

但也有一些争论和批评意见让她感觉“有点做作”，包括现在的 AI 路线有错、以及 AGI 即将实现之类。“我认为这本应是一场更深层、更微妙、更细致、更多维的科学争论，但现在的情况有点浅表化了。”

当然，李飞飞也承认这十年来 AI 的发展表现令人失望，而且往往跟技术本身无关。“我觉得最令人失望的状况发生在 2014 年，当时我和以前的学生们共同创立了 AI4ALL，希望将年轻女性、有色族裔和服务欠缺社群的学生们带入 AI 世界。我们的目标，就是给 AI 世界带来更加多样化的未来。”

如今八年过去，她认为积极的变化来得太慢。“我希望看到更快、更深层次的变化，但各方付出的努力还远远不够，特别是在初中和高中这个阶段。我们不知不觉中失去了很多才华横溢的年轻参与者。”

Yann LeCun

AI 与深度学习的未来

LeCun 承认，很多 AI 挑战在吸纳了大量资源投入之后仍未得到解决，其中最典型的一例就是自动驾驶。

“必须得说，人们可能低估了自动驾驶的复杂性。”LeCun 承认自己也没有深入研究过这个领域，“但我知道这事很难，而且需要很长时间。我不同意某些人的观点，他们说原理问题已经基本解决……接下来只要把模型做得更大就行。”

事实上，LeCun 最近发布了一份建立“自主机器智能”的蓝图，这也表明他认为现有 AI 方法并不足以打造出与人类相当的 AI 成果。

但他同时看到了深度学习未来的巨大潜力。他说最令自己感到兴奋、并愿意为之奋斗的，就是让机器获得类似于动物、甚至人类的高效学习能力。

“对我来说，最大的问题就是动物到底遵循怎样的学习原则。正因为如此，我才一直倡导自监督学习等技术方向。这方面的进展将使我们得以构建出目前遥不可及的成果，比如能够在日常生活中帮助用户的智能系统。它们就像是人类的助手，这才是大家所真正需要的。未来，我们一定会进入全民佩戴增强现实眼镜的时代，我们将随时随地与 AI 互动。”

Hinton 也认为深度学习有着良好的进展。除了机器人技术的进步，他认为神经网络的底层计算基础设施也将迎来新突破。“目前的基础设施是在用擅长矩阵乘法器的加速器执行数字计算。”而对于反向传播，还需要把模拟信号转换为数字信号。

“目前的反向传播只能在模拟硬件中实现，未来我们一定会找到替代方案。

我也完全相信，从长远来看，人类几乎所有计算都将以模拟的方式完成。”

李飞飞则把深度学习的未来寄予在交流和教育上。“在斯坦福以人为本 AI 研究院，我们把大量精力投入到与商业领袖、政府官员、政策制定者、媒体、记者乃至整个社会的沟通中来，并建立了各种专题讨论、会议、研讨、政策简报和行业简报。”

她补充道，对于这样一种出现不久的技术，“我个人担心各方由于缺乏必要的背景知识，而无法传达对 AI 时代的细致描述与深入思考。”

黄金十年：一段将永被铭记的深度学习岁月

对 Hinton 来说，过去十年来深度学习的发展“超越了我最疯狂的想象”。

但他也强调，虽然深度学习取得了巨大进步，但这一切归根结底还是源自计算机硬件的升级。“这一切都应该归功于愈发强大的计算机硬件。”

而像 Marcus 这样的批评者认为，深度学习目前取得的进展“在后世看来，也许反而是一种不幸。我认为 2050 年的人们会回顾 2022 年的 AI 系统，并感叹当时的人们有勇气、有干劲，但却没有走对方向。”

李飞飞则希望人们将这十年铭记为“伟大数字革命的开端，它使所有人——不是少数人或者部分人，而是所有人——都能更好地工作和生活。”

作为一名科学家，她表示“我当然不觉得如今的深度学习会是人类对于 AI 探索的终点。”在社会方面，她希望能让 AI 成为“一种令人印象深刻的技术工具，而且始终以人为中心进行开发和使用。我们必须认识到这种工具带来的深远影响，并接受以人为本的思维框架、AI 设计和部署原则。”

毕竟，“后世对我们的评价，取决于我们当下所做的一切。”