酷应用

Facebook人工智能掌门杨立昆：AI最缺乏的是常识

百家作者：全球大数据峰会 2017-07-10 15:11:54

‍

乍一看Facebook人工智能研究掌门人Yann LeCun的名字，不少人可能怀疑这是个华人。也因为这个名字十分接近中文发音，江湖上流传着“燕乐存”、“杨乐昆”等不同版本的音译中文名。

7月4日，这位人工智能的法国大牛走上上海交通大学的讲坛的时候，千人级礼堂“菁菁堂”几乎座无虚席。或许是要终结译名的混乱现状，他的第一张PPT，无关人工智能，竟是宣布了自己的官方中文名字：杨立昆。

“我叫杨立昆”

画风高冷的FAIR

随着杨立昆的到来，Facebook结束了没有专门的人工智能研究室的时代，而且一设就是两个：由杨立昆执掌的人工智能研究（FAIR）和负责对接应用场景的机器学习应用部门（AML）。

据FAIR成员、围棋AI项目负责人田渊栋介绍，杨立昆领衔的FAIR学术氛围十分浓厚，目标是发高质量的文章。“FAIR的研究方向相对自由宽松，没有近期的产品压力，可以着眼长远做困难和本质的研究问题。”田渊栋认为，这样的学术氛围在各大公司极其少见。

FAIR的画风也因此显得有点“高冷”，Facebook旗下那些热门产品，如Instagram和WhatsApp，与FAIR都没有直接关系。杨立昆在一张PPT上展示了FAIR目前的开源项目，排在前三位的是Torch（Lua语言的深度学习框架）、PyTorch（Python语言的深度学习框架）和Darkforest（围棋系统）。

田渊栋取了Darkforest（黑暗森林）这个名字，出于对刘慈欣的科幻小说《三体》的喜爱。众所周知，谷歌旗下DeepMind公司的围棋人工智能程序AlphaGo，在今年5月底3:0完胜“当今第一人”柯洁，站在世界棋坛的巅峰光荣退役。当澎湃新闻问及“黑暗森林”的研发计划是否会受到AlphaGo退役的影响，田渊栋说道，“谈不上什么影响，还是该干嘛干嘛呗。”

卷积神经网络之父

AlphaGo的横空出世与震惊世界，是眼下如火如荼的人工智能“盛夏”的最好注脚。而这个夏天，早在几十年前就被杨立昆埋下了一个伏笔。伏笔就是杨立昆的成名作：卷积神经网络（Convolutional Neural Networks，CNN）。AlphaGo下棋时的策略网络就是基于卷积神经网络构建的。

在今天，我们已经习惯于计算机能够“看到”这个世界，识别出静态和动态的物体，并在此基础上，挑战自动驾驶等更高级别的任务。然而，在杨立昆读大学的1980年代，计算机基本上是一个“瞎子”。

杨立昆从一开始就相信他能让计算机“开眼看世界”。在他的理解里，图像是由很多很多小的部分、小的特征组合而成。而卷积神经网络，就是把图像拆解成小块，从中提取出特征，每一层提取的特征组合，都可被用于下一层更具体的特征识别。譬如，计算机可以先提取出最基本的轮廓和纹理，再利用轮廓和纹理提取类别。随着深度的增加，算法可以提取出更高层级的抽象特征。

1998年，杨立昆提出了LeNet-5模型，是世界上第一个正式的卷积神经网络。他现场展现了一段珍贵的视频资料：依靠一个7层的卷积神经网络识别屏幕上不断变化着的手写数字。

杨立昆的神经网络在这个人工智能盛夏有多火热，在他的研究初始阶段就有多冷门。他见过真正的人工智能寒冬：技术进展停滞，资金和关注度下降，理论从本质上受到质疑。雪上加霜的是，主流学术圈更偏爱其他一些图像识别方法，虽然这些方法后来都湮灭在时光中，但在当时却结结实实令杨立昆坐了好久的冷板凳。

90年代中期，杨立昆在大名鼎鼎的贝尔实验室工作，他的小组因内部斗争被取缔——那时候，他研发的利用神经网络进行支票识别的ATM，差一点就要成功了。

到了21世纪头几年，其他一些竞争者甚至阻止他在学术会议上展示论文。Geoffrey Hinton回忆道：“计算机视觉圈子基本上不待见他，他们觉得他做的事情在80年代还有潜力，但是在2000年就过时了。”

风水轮流转得很快。随着互联网时代计算能力和数据量的大幅度提高，神经网络迅速变得灵活、简便而准确。杨立昆从边缘人物一跃成为行业领军人。“一年之内，所有人都在研究这个。真是太疯狂了。”

人工智能最缺的是常识

而观察这个世界，只是计算机理解这个世界的第一步。杨立昆在演讲的后半部分，着重介绍了真正的“智能”所面临的障碍。

目前，人工智能最缺乏的是常识。什么是常识呢？比方说，“这个奖杯放不进箱子，它太小了”，和“这个奖杯放不进箱子，它太大了”，这两句话，人类从常识就可以知道，前面一个“它”指的是箱子，而后一个“它”指的是奖杯。这对计算机来说却不是直观的。

再比如说，在“汤姆拿起包离开房间”这个小视频中，人类可以很自然地理解这一连串动作背后的逻辑：手碰到包就要抓住，不然是拿不起来的；离开房间要先开门再关门。但计算机只看到了一系列单个动作。

因此，杨立昆总结道，“常识就是靠预测填补空白的能力。”人类在生活的耳濡目染中接收了大量信息，由此形成了常识。在信心不足的时候，靠因果逻辑就能补上空档。只有预测到行为的后果，才能谈得上“规划”。理性＝预测＋规划，这是杨立昆给出的公式。

计算机想要获得媲美人类的预测能力，必然需要海量的数据。这就是“无监督学习”想要实现的目标。

杨立昆使用了“蛋糕”比喻，描述机器学习的三大流派。纯粹的强化学习可以根据少量样本预测出一个分数，监督学习可以用人类给定的样本预测一个特定的类别，而无监督学习需要用大量样本，对任何被观察的物体给出任意方向上的预测，比如通过视频的上半段预测视频的下半段。

强化学习是蛋糕顶上缀着的一颗樱桃，监督学习是蛋糕表面的糖霜，虽然现在的人工智能看起来很漂亮，但人类对如何制作蛋糕胚本身——无监督学习，还是摸不着门路。

这个比喻看上去对强化学习不够尊重，因此杨立昆强调，这个蛋糕是黑森林蛋糕——黑森林蛋糕是一定有樱桃的。目前，强化学习在游戏程序领域，比如围棋和星际争霸，扮演着很重要的角色。

图说：“蛋糕”比喻

对抗训练（adversarial training）在无监督学习方面取得了一些成绩。即由一个生成网络，随机创造正确或错误的数据，再由一个鉴别网络鉴别数据与正确答案的区别。两个网络互相博弈，交互学习，逐渐向最优演进。不过，杨立昆认为，这离实现完全的无监督学习还很遥远。

那么，人工智能离人类的“理性”到底有多远呢？杨立昆的态度比较谨慎。虽然卷积神经网络最早的灵感雏形来源于对猫大脑皮层的研究，杨立昆并不感冒仿生学。鸟类对于飞机来说，最大的价值是证明了飞行是可行的，激励人类探索飞行。但最后造出飞机的原理，却和鸟类并不是一回事——振翅并不重要。大脑这台完美的“机器”激励人类去探索人工智能，但是需要多少时间、怎样的方式才能接近这个蓝图，谁也说不好。