酷应用

把“恐龙化石”变成“石油”，李飞飞和ImageNet花了8年时间

百家作者：DeepTech深科技 2017-07-27 13:49:27

2017年是ImageNet挑战赛举办的最后一年，当地时间7月26日，谷歌云首席科学家李飞飞在CVPR的舞台上最后一次谈论了ImageNet挑战赛的年度成果。创办至今的7年时间内，该挑战赛中胜出的算法对物体进行识别的准确率从71.8%上升到97.3%，这已经超过了人类的能力。

尽管挑战赛已经结束，但它已经对人工智能的诸多领域产生了深远的影响。自2009年以来，在计算机视觉、自然语言处理和语音识别等领域，研究者们先后引入了数十个新的数据集。

李飞飞说，ImageNet让我们的思维模式发生了转变，当很多人都只在关注模型时，我们却在关注数据，数据将重新定义我们对模型的看法。而该比赛也有效地证明了，更大的数据可以带来更好的决策。

回顾ImageNet这8年的历程，我们可以看到数据是如何成为这个时代的新石油。

图丨李飞飞

ImageNet诞生记

2006年，李飞飞就开始酝酿一个想法。

当时，她还是伊利诺伊大学香槟分校的一名刚刚毕业的计算机科学教授，她看到她的在学术界和人工智能行业的同事们都在遵循同样的理念:不管数据如何，更好的算法总能做出更好的决策。

但是她意识到这种方法的局限性——即使是最好的算法，如果它没有反映真实世界的数据，也不会很好地发挥作用。

她的解决方案是:构建一个更好的数据集。

“我们决定要做一件完全史无前例的事情，”李说，“我们要绘制出整个物体世界的数据”（“我们”指的是一个最初和她一起工作的小团队）。

她们最终生成的数据集被称为ImageNet。该数据集最初于2009年在迈阿密海滩会议中心里公开发表，但很快它就引发了一场年度竞赛——ImageNet挑战赛，该比赛致力于裁决出哪种算法能以最低的错误率识别出数据集中的图像。许多人把这场比赛看作是当今世界正在经历的人工智能热潮的催化剂。

ImageNet挑战赛的获胜者遍布科技界的各个角落。2010年，该竞赛的第一个获胜者相继去了百度、谷歌和华为担任高级职务。Matthew Zeiler在2013年ImageNet挑战赛获胜的基础上，创立了人工智能初创公司Clarifai,现在该公司已经获得了4000万美元的风险投资。2014年，谷歌与两位牛津大学的研究人员分享了该比赛的冠军头衔。随后，牛津大学的两位研究人员很快就被谷歌高薪聘任，并进入了最近被谷歌收购的DeepMind实验室工作。

图丨李飞飞

李飞飞本人现在是谷歌云首席科学家、斯坦福大学的教授，同时也是该大学人工智能实验室的主任。

那ImageNet究竟是什么呢？

上世纪80年代末，普林斯顿大学心理学家乔治米勒开始了一项名为WordNet的项目，目的是为英语构建一个等级结构。它有点像字典，但单词是依据和其它单词的关系而显示出来而不是字母顺序。例如，在WordNet中，“狗”一词将被嵌套在“犬”中，而“犬”将嵌套在“哺乳动物”中，以此类推。它是一种组织语言的方式，它依赖于机器可读的逻辑，并且积累了超过155,000个索引词。

李飞飞在美国伊利诺伊大学香槟分校的第一份教学工作中，一直在努力解决机器学习中的一个核心问题:过拟合和泛化。当一个算法只能处理接近于它之前所见的数据时，这个模型被认为是对数据的过拟合;在这样的例子中，我们无法理解任何更普遍的东西。另一方面，如果一个模型没有在数据之间找到正确的模式，那么它就会过度泛化。

李飞飞说，找到完美的算法似乎很遥远。她发现以前的数据集并不能捕捉和体现世界的变化——即使只是识别猫的照片也是无限复杂的。但是通过给算法更多的例子来说明这个世界是多么的复杂，就能让它在数学层次上更行得通。比方说，如果你只看到5张猫的照片，你的大脑就只会有5个关于猫的视角角度和光照条件的概念，这就可能会导致你的大脑会把很多东西认为是猫。但如果你看过500张猫的照片，你的大脑就会有更多的例子来说明猫的共性，这就把对猫的概念“缩小”了。

就在那时，李飞飞开始阅读文献，看看其他人是如何试图用数据来对世界进行一个公正的描述。在那次搜寻中，她找到了WordNet。

在阅读了WordNet的方法后，李在2006年访问普林斯顿大学时，与Christiane Fellbaum教授进行了接触，他是一位对WordNet进行持续研究工作的有影响力的人物。 Fellbaum认为，WordNet可以有一个与每一个词相关的图像，这些图像是作为与单词相关联的参考的，而不是另外开辟的计算机视觉数据集。在那次会晤后，李飞飞设想了一个比WordNet更加庞大的数据集——在这个数据集里，每个单词都有很多与之相关的实例图像。

几个月后，李飞飞回到了她的母校普林斯顿大学，并于2007年初开始了“ImageNet”项目。随后，她开始组建一个团队来共同研究这一项目挑战。首先她聘请了一位教授，李凯，后来李凯说服了博士生李佳也进入了李飞飞的实验室。李佳在2017年帮助完成了“ImageNet”项目。现在也是业界大牛。

李佳说：“我很清楚，这与当时的人们所做的事情有很大的不同，当时我们的注意力都集中在另外一点上。我很清楚，这将改变人工智能在视觉研究领域的规则，但我不知道它将如何改变。”

数据集里的物体对象包括了从具体的物体，如熊猫或教堂，到如爱情等的抽象概念。

李飞飞首先以每小时10美元的价格雇佣大学本科生，手工找到图像，并将其添加到数据集中。但是，粗略地计算后，李飞飞很快就意识到，以本科生收集图片的这个速度，要花上90年的时间才能完成收集工作。

在解散那些本科生劳动力后，李飞飞和他的团队重新回到了黑板上讨论这个问题的解决方案。他们想，如果计算机视觉算法能够从互联网上筛选图片，然后人类就只需要把这些图像整理一番，那会怎么样呢?但是，在对算法进行了几个月的修改之后，研究小组得出结论，这种方法也是不可持续的——算法将随着时间的推移而被限制，只能在数据集被编译时才能知道哪些算法具有识别能力。

手工添加是耗时的，算法是有缺陷的,团队又没有钱。李飞飞说那时她的项目未能得到任何联邦拨款申请。并且有人嘲讽她道，这个项目很令人遗憾，让她交给普林斯顿大学的其他团队去研究，因为她毕竟是个女性。

图丨亚马逊“土耳其机器人（Amazon Mechanical Turk）”项目

最终，一个解决方案终于浮出水面。在她与一名研究生在走廊里的一次闲聊时，她问李是否听说过亚马逊的“土耳其机器人（Amazon Mechanical Turk）”项目，这是一个让坐在世界各地计算机面前的人们通过完成平台上的小任务来赚钱的网络平台服务。

“他给我看了这个网站，我可以告诉你，那天我就知道ImageNet项目将会如何进行下去，”李飞飞激动地说。“突然间，我们找到了一个可以扩大数据搜集规模的工具，我们不可能只通过雇佣普林斯顿大学的本科生来实现我们的这个项目的梦想。”

但是，随着李飞飞的两名博士生，李佳和Olga Russakovsky，利用“土耳其机器人”进行的工作越来越多，“土耳其机器人”也暴露出一系列的问题来。例如，每张图像要多少个土耳其机器人鉴定?也许两个人可以确定一只猫，但是一张迷你赫斯基犬的照片可能需要10轮验证。何况万一“土耳其机器人”上的雇员玩弄或者欺骗了系统怎么办？李飞飞的团队最终终止了利用“土耳其机器人”来建立一批统计模型的计划，以确保他们的数据集只包含正确的图像。

即使在找到Mechanical Turk之后，数据集也花了两年半的时间才完成。它包含了320万个被标记的图像，分为5247个类别，分为12个子树，如哺乳动物、汽车和家具。

2009年，李飞飞和她的团队发布了带有数据集的ImageNet论文，当时他们几乎没有对它做任何宣传。李飞飞回忆说，在那次的计算机视觉研究领域的顶级会议CVPR上，只允许团队用一个海报来演示研究成果，而不能口头演示，因此她们的团队给公众分发了带有ImageNet标签的笔来吸引他人的兴趣。但是当时人们还是怀疑仅通过给算法提供更多的数据，就能产生更好的结果的基本思想。

李佳说，总是有人问我们，如果你连一个物体都识别不好，你怎么能识别出成千上万的物体呢?

现在来看，数据正成为新的“石油”，但是在2009年，它仍然是恐龙化石。

ImageNet挑战赛的辉煌

在2009年晚些时候，在京都召开的计算机视觉会议上，一位名叫Alex Berg的研究人员向李飞飞提出建议，要在ImageNet挑战赛中加入一个额外的要求，在这个比赛中，算法还需要定位图像对象的位置，而不仅仅是它的存在。随后，李飞飞对他说:和我一起工作吧。

李飞飞、Berg和李佳在数据集的基础上共同撰写了五篇论文，探讨了算法如何解释如此庞大的数据。第一篇论文成为了算法如何对成千上万的图像类别进行反应的基准，这也是ImageNet比赛规则的前身。

李飞飞在第一篇论文中说:“我们意识到，要实现这一想法，我们需要进一步做更深入的工作。”这也就产生了ImageNet挑战赛。

随后，李飞飞联系了欧洲著名的图像识别竞赛组委会，PASCAL VOC。她随后与该组委会达成合作。PASCAL挑战赛是一个备受尊敬的竞赛，其数据集同样具有一定的影响力，但它代表了之前的那些研究方法。与ImageNet数据集的1000个类相比，它只有20个类。

随ImageNet挑战赛在2011年和2012年持续举办，它很快成为了评判解决当时最复杂的视觉数据集的良好图像识别算法的基准。

不过，研究人员也开始注意到，除了比赛，他们的算法在使用ImageNet数据集进行训练时，效果更好。

“令人惊喜的是，那些在ImageNet上训练自己的模型的人可以用它们来启动其他识别任务的模型。你可以从ImageNet模型开始，然后对另一项任务进行微调，”Berg说。“这对于神经网络和一般来说都是一个突破。”

在距第一次ImageNet挑战赛两年后的2012年，该赛事产生了重大的成果。事实上，如果我们今天看到的人工智能热潮可以归因于一个单一事件的话，那就是2012年的ImageNet挑战赛的结果。

来自多伦多大学的Geoffrey Hinton、Ilya Sutskever和Alex Krizhevsky提交了一种称为“AlexNet"的深度卷积神经网络体系结构，这一体系结构在今天的研究中仍被使用，这一体系结构的领先优势达到了10.8%，比下一个最好的体系结构要高41%。说明一下，现在Hinton已经被业界尊为大神了。

对于Hinton和他的两个学生来说，ImageNet的出现真是再及时不过了！自20世纪80年代以来，Hinton一直致力于研究人工神经网络。但他不像和他同样研究神经网络的另一位人工智能大神Yann LeCun 一样，借助在贝尔实验室的影响，把这项技术广泛应用到ATM机中。那时，Hinton运气欠佳，他的研究成果并没能很好地落地。虽然几年前，显卡制造商Nvidia的芯片能使这种早期神经网络的处理速度更快，但其速度仍不如其他技术。

Hinton和他的团队先前已经证明，他们的卷积神经网络可以在更小的数据集上完成更小的任务，比如笔迹检测，但他们需要更多的数据才能在现实世界中发挥作用。直到他们遇到了ImageNet。

Sutskever说:“很明显，如果你在ImageNet上做得很好，你就可以解决其他图像识别问题。”

如今，这些卷积神经网络的应用到处都是。在facebook，Yann LeCun是人工智能研究的主管，他用它们来标记人们的照片;自动驾驶汽车用它们来检测物体;基本上任何要识别图像或视频中的东西的功能都在使用它们。他们可以通过在抽象层上发现像素之间的模式，在每个层次上使用成千上万个微小的计算来分辨出图像中的内容。新的图像通过这个过程来匹配它们的模式并且把这个模式学习下来。几十年来，Hinton一直在敦促他的同事们认真检查证实他的这项研究成果，但现在他有证据表明，他的这项成果足可以击败其他的人工智能技术。

“更令人惊讶的是，人们可以通过深度学习来改善它，”Sutskever说，他指的是一种层次神经网络，允许更复杂的模式被处理，现在是人工智能最受欢迎的方式。“深度学习就是正确的东西。”

2012年ImageNet挑战赛的结果让计算机视觉研究人员争相复制这一业界辉煌。Matthew Zeiler是纽约大学的博士生，他曾在Hinton门下做研究，知道ImageNet的结果后，通过在多伦多大学的关系，他获得了这种卷积神经网络早期的论文和代码。他开始与纽约大学的教授Rob Fergus合作，此人也在神经网络上颇有成就。两人开始对2013年的挑战赛进行论文提交，Zeiler也最终在几周后离开了谷歌的实习，以专注于论文提交。

李飞飞说，Fergus和Zeiler在那年赢得了比赛，并且直到2014年，所有高得分的参赛者的研究领域都是深度神经网络。

Zeiler在一封给Quartz的电子邮件中写道:“2012年的这一事件无疑是今天人工智能爆炸的原因。在这之前不久，语音识别肯定有一些非常有前途的结果(其中很多都是由多伦多引起的)，但它们并没有像2012年和接下来的几年里那样，在公众面前大获成功。”

现在，许多人认为ImageNet solved的错误率非常低，只有2%左右。但这只是用于分类，或识别图像中的对象。这并不意味着一个算法知道这个对象的属性，它来自哪里，它是用来做什么的，是谁做的，或者它是如何与周围环境相互作用的。简而言之，它并不真正理解它所看到的东西。这也反映在语音识别中，甚至在很多自然语言处理中。虽然我们今天的人工智能知道事物是什么，但是在真实世界的语境下理解这些物体的其它含义是人工智能的下一个目标。人工智能研究人员将如何实现这个目标我们还不清楚。

ImageNet之后

挑战赛前几天已经结束，这几年来，ImageNet的数据集更新了很多，现在有超过1300万张图片，它们将会继续存在下去。

Berg表示，该团队曾在2014年试图取消挑战赛的其中一个规则要求，但遭到了包括谷歌和Facebook在内的公司的抵制，显然，他们喜欢统一的标准。以后这个行业可以指着一个数字说:“我们做得很好。”

自2010年以来，谷歌、微软和加拿大高级研究院推出了一系列备受瞩目的数据集，因为深度学习研究已被证明需要像ImageNet那样庞大的数据集。

数据集已经成为噱头。创业公司的创始人和风险投资家将会在媒体上发表文章，对最新的数据集进行大肆宣传，以及他们的算法在ImageNet上的良好表现。谷歌、Facebook和亚马逊等互联网公司已经开始创建自己的内部数据集，这些数据集基于每天在平台上输入和分享的数百万张图片、语音片段和文本片段。就连创业公司也开始组建自己的数据中心，TwentyBN——一家专注于视频理解的人工智能公司，他们使用亚马逊的土耳其机器人来收集视频上的语音和行为数据。该公司已经发布了两个免费供学术使用的数据集，每一个都有超过10万个视频。

“从视频到演讲，从游戏到一切，各种数据集都在不断涌现，不断涌现，”李飞飞说。

有时人们想当然地认为，这些收集、整理和检验数据的数据集是免费使用的。当然，开放和免费使用是ImageNet的一项基本原则，这会让他长期发展下去。

2016年，谷歌发布了开放图像数据库，其中包含了900万张照片，6000个类别。谷歌最近更新了这个数据集，将特定对象所在的标签包含在每个图像中，这是2014年以后ImageNet挑战赛的主要规则内容。总部位于伦敦的DeepMind公司，后来由谷歌收购，并分拆为自己的Alphabet公司。最近，该公司发布了自己的视频数据集，包含了人们进行各种各样的行为的数据。

“ImageNet改变了在人工智能领域的一件事，那就是，人们突然意识到，制作数据集这样的的繁琐工作是人工智能研究的核心，”李飞飞说, “人们真正认识到数据集在研究中的重要性，就像算法一样。”

-End-

编辑：Theo

参考：

https://qz.com/1034972/the-data-that-changed-the-direction-of-ai-research-and-possibly-the-world/