酷应用

首届AAAI/ACM SIGAI博士论文奖公布，清华姚班毕业生、MIT学霸吴佳俊获奖

百家作者：机器之心 2020-11-08 13:08:00

机器之心报道

编辑：魔王、杜伟

AAAI 联合 ACM SIGAI 首次发布博士论文奖项，MIT 博士吴佳俊获此奖项。runners-Up 博士论文奖则授予了毕业于佐治亚理工学院的 Aishwarya Agrawal 和毕业于爱丁堡大学的 Li Dong（董力）。

AAAI 联合 ACM SIGAI 首次发布博士论文奖项，MIT 博士吴佳俊以论文《Learning to See the Physical World》获得 2019 AAAI/ACM SIGAI 博士论文奖，毕业于佐治亚理工学院的 Aishwarya Agrawal 和毕业于爱丁堡大学的董力获 runners-Up 奖项。

AAAI/ACM SIGAI 博士论文奖由 AAAI 和 ACM SIGAI 共同设立，旨在发现和鼓励人工智能领域的优秀博士研究和论文。这是一个年度奖项，将出现在一年一度的 AAAI 会议上，获奖者将在会议上做演讲。

AAAI 首个博士论文奖项，由 MIT 学霸吴佳俊摘得

MIT 博士吴佳俊凭借论文《Learning to See the Physical World》获得首个 AAAI/ACM SIGAI 博士论文奖。此前，该论文还获得 2019 ACM 博士论文荣誉提名奖。

这篇论文通过集成神经网络中自下而上的识别引擎和自上而下的模拟引擎、图模型和概率规划，推动 AI 在感知物理世界方面的发展。

论文地址：https://jiajunwu.com/papers/dissertation.pdf

尽管人工智能在过去十年间取得了显著进步，但当前的 AI 方法只能解决特定问题，需要大量的训练数据，并且在泛化至新任务或新环境时容易崩溃。人类智能揭示了人工智能的发展之路还有多远：给出单张图像，人类可以解释看到的事物，重建 3D 场景，预测即将发生的事情，以及做出行动规划。

吴佳俊博士论文的主题是物理场景理解，即如何构建能够学习观察和推理物理世界并与之交互的高效通用机器。其核心思路是：将计算机图形学、物理学和语言学中的模拟引擎，与深度学习进行集成，进而充分挖掘物理世界的因果结构。

这篇博士论文涵盖感知、物理和推理多个领域的内容，旨在培养像人类一样观察和推理物理世界的人工智能。此外，该论文融合了人工智能的多个分支，解决了感知、动态建模和认知推理多个方面的关键问题。

论文作者吴佳俊现为斯坦福大学计算机科学系助理教授。他本科毕业于清华大学姚班，之后在麻省理工学院（MIT）相继完成硕博阶段的研究学习。他的研究兴趣包括物理场景理解、动态模型、多模态感知和生成视觉模型。

个人主页：https://jiajunwu.com/

吴佳俊的人生履历堪称传奇。他是清华大学交叉信息研究院 2010 级本科生，随后进入姚班学习。本科期间曾连续三年学分绩全年级第一，并荣获清华大学本科生特等奖学金、蒋南翔奖学金和姚期智奖学金等。

在学术方面，吴佳俊有多篇论文被 CVPR、ICLR、ICML、NeurIPS 等世界顶级学术会议接收。据 Google Scholar 数据显示，他至今已发表 81 篇论文，被引用数超过 5000。

在 ICLR 2019 最高产论文作者排名中，吴佳俊名列其中。

runners-Up 博士论文奖

2019 AAAI/ACM SIGAI 两篇 runners-Up 博士论文奖由毕业于佐治亚理工学院的 Aishwarya Agrawal 和毕业于爱丁堡大学的董力获得。

Aishwarya Agrawal 获奖论文：聚焦视觉问答

Aishwarya Agrawal 凭借博士论文《Visual Question Answering and Beyond》获得该奖项 runners-Up。

论文地址：https://smartech.gatech.edu/handle/1853/62277

这篇论文的研究主题是一个多模态人工智能任务——视觉问答（VQA）：给出一张图像，并提出与该图像相关的自然语言问题，机器自动给出准确的答案。在该论文中，Aishwarya Agrawal 研究了以下几个问题：

如何创建大规模数据集，如何为自由形式和开放式 VQA 定义评估指标；
如何开发出能够描述 VQA 模型行为的技术；
如何构建受训练数据中语言偏差影响较少且更加 visually grounded 的 VQA 模型。

Aishwarya Agrawal 表示她之前的工作主要研究能够「看见」和「说话」的智能体，而出于实际应用的考虑，她认为我们还需要能够采取行动的智能体。在论文第六章中，她介绍了未来研究方向：构建能够采取行动的视觉和语言智能体。

个人主页：https://www.cc.gatech.edu/~aagrawal307/

Aishwarya Agrawal 现为 DeepMind（伦敦办公室）的一名研究科学家。2019 年 8 月，她顺利通过博士论文答辩，取得了佐治亚理工学院交互计算学院的博士学位。

Aishwarya Agrawal 的研究兴趣是计算机视觉、深度学习和自然语言处理的交叉领域，重点关注如何开发能够「看见」（即理解一张图像的内容）和「说话」（即将理解的内容通过自由形式的自然语言传达给人类）的人工智能系统。

她的这篇博士论文曾获佐治亚理工学院 2020 Sigma Xi 最佳博士论文奖和佐治亚理工学院 2020 计算机学院论文奖。

Li Dong 获奖论文：用神经模型来学习自然语言接口

Li Dong 的获奖论文是《Learning Natural Language Interfaces with Neural Models》。

论文地址：https://era.ed.ac.uk/handle/1842/35587

人类使用自然语言进行交流，而计算机只能理解和执行形式语言。这篇论文的主题是使用神经模型来构建自然语言接口，从而将自然语言表达与机器可读表征进行映射。由于以下几个原因，这项任务很有挑战性：

1）自然语言与形式语言之间的结构不匹配；
2）输出表征的结构良好性（well-formedness）；
3）缺乏不确定性信息和可解释性；
4）模型对语言变体的覆盖问题。

这篇论文开发出多个灵活的神经架构来解决以上挑战。

该研究提出一种基于注意力增强编码器 - 解码器神经网络的模型，来构建自然语言接口。除了序列建模以外，该研究还提出一种树解码器来利用意义表征的复合性和结构良好性，从而以自上而下的方式递归生成层级结构。为了建模不同粒度层级的意义，该研究提出一种结构感知神经架构，按照从粗到细的过程解码语义表征。

这些神经模型仍然难以解释，大部分情况下仍是黑箱。于是，Li Dong 尝试估计和解释模型的预测置信度，希望能为用户提供即时有用的反馈。

模型覆盖（model coverage）是造成自然语言接口不确定性的主因。因此，该研究开发了一个通用框架来处理自然语言用不同方式表达相同信息的情况。研究者利用外部资源为输入生成恰当的转述，然后将其馈送到打分模型中，该模型为最有可能获得正确答案的语言表达分配更高的权重。其模型组件使用模板任务提供的监督信号以端到端的方式训练得到。

实验表明，该研究提出的神经模型可以轻松移植到不同任务。此外，考虑输出的结构良好性、置信度建模和改进模型覆盖均有助于改建自然语言接口的稳健性。