酷应用

AI碰上《如梦令》？中文NLP大赛正在进行中

百家作者：机器之心 2021-03-19 12:40:11

机器之心发布

作者：林三 Yichen

「2021 海华 AI 挑战赛 · 中文阅读理解」正在进行，旨在推动机器阅读理解综合水平的提高和综合能力的拓展，为中文阅读理解在教育、医疗、金融等各个领域的应用提供参考。

文字是人类用以记录和表达的最基本工具，也是信息传播的重要媒介。从仓颉造字的古老传说到殷商时期甲骨文的发现，我们的文字已经绵延数千年，流传至今。透过文字与符号，我们可以追寻文明的起源，理解自我及他人，传播知识与经验，当人工智能面对一道古诗词语文题，它能够理解到什么程度呢？

昨夜雨疏风骤，浓睡不消残酒。试问卷帘人，却道海棠依旧。知否，知否？应是绿肥红瘦。

问:「残酒」指的是：

A. 上次自己没有喝完的酒

B. 别人喝后剩下的酒

C. 质量低劣的酒

D. 还未消尽的醉意

（答案在文末）

机器阅读理解体现的是人工智能对文本信息获取、理解和挖掘的能力，是自然语言处理和人工智能领域的前沿课题，对于使机器拥有认知能力、提升机器智能水平具有重要价值，拥有广阔的应用前景，诸如客服机器人，智能语音助手等，更加智能化、「拟人化」的机器一直是研究学者的追求目标。

何为「拟人化」呢？即无限程度地接近于人。人类区别于机器的地方有很多，比如人的认知能力、感知能力，想象力，创造力…… 在机器阅读领域，拟人化体现在如何使机器理解知识与常识、具备逻辑推理能力，甚至是读懂文字所承载的情感等等。随着人类对人工智能要求的提高，人工智能的能力边界也在不断拓展。

从机器阅读理解的发展历程来看，机器阅读理解的能力随数据集的变化而不断进展。从深度学习的机器阅读理解开始算起，CNN/Daily Mail 数据集则是新起点的标志。2015 年，Hermann 等人提出了源于 CNN 和《每日邮报》新闻的用以生成大规模阅读理解的数据集，题目类型为完形填空，机器被要求从答案中四选一，而正确答案就是被替代的实体，考察的是其进行信息匹配和抽取的能力。

另一个重要的时间节点则是 SQuAD 的诞生。SQuAD（ Stanford Question Answering Dataset），即斯坦福问答数据集，这是第一个大规模的自然问题阅读理解数据集，启发了一系列新的模型。SQuAD 是 Rajpurkar 等人在 2016 年根据 500 余篇维基百科文章，通过众筹方式生成问题的数据集，所有问题至少在词汇或语法上都与文章中的文本存在些许不同，需要模型具备文本匹配和释义等基础理解能力，同时，基于文本匹配或实体类型识别的方法仍然奏效。

SQuAD2.0 于 2018 年 6 月完成更新，新增了超过五万个由人类设计的，以及无法回答的问题，这意味着机器在做题过程中还要判断该问题能否根据当前的阅读文本作答，它具有很高的迷惑性，基于文本匹配或实体类型识别的简单启发式方法无法区分「可回答」和「不可回答」问题，自此，对于机器阅读理解能力的要求开始更上一个台阶。

SQuAD 2.0 排行榜

过往的数据集 (例如 SQuAD1.0) 往往只需要从单句找答案，问题与含有答案的句子具有高度相似性。为了加大问答所需要的文章跨度，WIKIHOP 所构建的问题需要模型结合多篇不同文献才能回答。这就比单一直接匹配的问答要更具难度，数据集中的问题需要多次「跳转」的阅读理解才能回答，这便形成了对机器推理能力的具体要求—多跳推理。具体来说，当人工智能面对一个问题，它只通过一个文档是无法正确回答问题的，需要根据多篇文档才能正确作答。

此外，在现实世界中，许多问题并不能简单地通过文本中的片段或实体来回答，人们更喜欢自己组织语言，并从相关文本中理解例子，归纳证据来给出答案。因而针对这些情况，近年来出现了一些描述性答案的数据集。MS MARCO 收集了 Bing 搜索引擎的查询以及查询结果，旨在用真实世界的问题和文档构建问答数据集，其中 53% 的问题需要描述性的回答，不能通过单词或实体级别的抽取完成问答。这类数据集更加切合真实的生活场景，机器除了基于文本的阅读理解之外，还要能够进行对于语义环境的理解，生活化语言的描述与表达。

人工智能的推理能力在考试类及对话类数据集中更加有所体现，这要求机器能够根据周围的信息、活动和环境找出其内在的逻辑关系并推理出符合逻辑关系的结论。RACE 是一个包含 28,000 多个段落和将近十万个问题的大规模阅读理解数据集，该数据集来自为中国初、高中生设计的英语考试，其问题和候选答案中的单词可能不会出现在文章中，所以简单的上下文匹配技术用处不大，其超过半数的问题需要推理能力，25% 的问题需要从多个句子进行推理。从 RACE 的排行榜来看，机器在推理能力要求下的阅读理解水平还是和人类存在差距。

RACE排行榜

机器阅读理解的综合能力也在不同数据集中各有侧重。有的考察常识，有的考察具体的某一种逻辑关系，有的考察数学能力。根据统计分析，MCScript 中有 27.4% 的问题需要常识来回答，因此该数据集可以考察模型利用生活常识理解文章回答问题的能力。对于 CoQA，它的关键挑战是系统必须正确处理对话历史记录，以解决指代消解类的问题。在该数据集中，共指关系和语用学是其他数据集所没有的独特而具有挑战性的语言现象。更有研究 (DROP) 专注于需要推理的 MRC 任务，推理的类型涵盖了数学运算、比较、选择、计数、排序、共指消解等等。

随着机器阅读理解智能化的进展，当今 MRC 研究方向更加注重考察简单匹配以外的多种理解能力，包括细节推理、全局推理、文章总结、态度分析、世界知识等等。而无论是外部知识还是综合能力，这都是对于机器更高层次、更加智能化的现实要求，也是机器阅读理解发展所朝着的方向。在世界潮流之下，当我们将机器阅读理解放到中文的语境下去思考，便会发现中文的阅读理解有着更多的难点、更高层次的要求。

回顾开篇李清照的《如梦令》，人工智能在释义类型的题目上可以正确作答，而当被问到，「这体现了词人怎样的情感」？或是「词人最可能在什么样的情境下有感而发」？机器就显得捉襟见肘。

汉字作为一种源远流长的文字，它包含了这个古老民族的智慧，孕育了华夏生生不息的文明。从中文的语言特性上来看，机器的中文阅读理解有着自身的独特性和复杂性。

中文语法的复杂性，这就导致了中英文在词性标注、句法分析等任务上颇有差异。主要体现在英语有明显的屈折变化（单复数、时态等），而汉语则缺少这些有规律的变化，相较于英文来说，中文的很多语法成分是被省略的，其逻辑关系都蕴含在了句意之中，更不用说生活中的「言外之意，弦外之音」了。回想一下小学的那些语文课，你可曾记得老师讲过用什么格式去描述过去和未来？为什么外国人总说中文是最难的语言？仅从语法规律这一点上便可见一斑。

语义本身的复杂性。中文的历史更加悠久，句法和语义富有变化。常见的中文文体包括古诗词、文言文、现代文和现代诗，其中现代文又分为小说、散文、议论文、说明文、新闻传记等，且不说其中的词语还可能包括成语、歇后语，典故。其中，文言文多由单字词组成，现代白话文则以多字词为主，字的含义也随着时代更迭而变化。有研究者以成语为载体构建了完形填空式的 MRC 数据集(ChID)，要求模型从几个近义成语之间选出正确的一个，由于成语大多源于古文典籍，形式类似文言文，并常常带有隐喻，让机器在现代文的语境下去理解古文仍然是一个不小的难题。

基于此背景，由中关村海华信息技术前沿研究院与清华大学交叉信息研究院联合主办，腾讯云计算协办的「2021 海华 AI 挑战赛 · 中文阅读理解」应运而生。大赛聚焦于中文阅读理解，注重对机器推理能力，甚至是情感理解能力的考察，数据文章涵盖多种文体的课文，古诗词、文言文、现代诗和现代文。这就要求模型不仅具备从原文抽取信息的能力，还需要具备归纳总结、逻辑推理、分析情感的能力，甚至还需要一些外部知识（文学常识、修辞手法、说明方法等）作为补充，大赛旨在推动机器阅读理解综合水平的提高和综合能力的拓展，为中文阅读理解在教育、医疗、金融等各个领域的应用提供参考。

时代的巨轮滚滚向前，「古老」与「现代」以科技的形式融会贯通，让最聪明的机器去阅读最古老的文明，我们既是历史的见证者，也是历史的创造者。面对重重关卡，迎难而上的挑战者不可谓不勇。大赛分为中学组及技术组两条平行赛道（腾讯云计算为中学组赛道提供独家算力资源支持），设 30 万元奖金池，并特设技术组古文正确率最高奖。志不求易，事不避难，璀璨的中华文明得以继承与发扬，离不开每一个时代里努力钻研、坚守传承的人，这也正是本次大赛的魅力与挑战：让机器读懂文字，让机器学习文明。激扬文字，百舸争流，更多大赛信息及报名界面参见下方二维码。

答案：D

海华 AI 挑战赛

2020 海华 AI 挑战赛聚焦社会热点问题—垃圾分类，以深度学习为基础，利用人工智能协助解决生活中的垃圾分类问题，为垃圾处理流程贡献有价值的解决方式。上一届大赛吸引了来自全球 14 个国家和地区的参赛选手，总计超过 1,100 人。其中技术组赛道的参赛选手覆盖超过 500 所全球顶级高校、科研机构以及知名科技企业。在比赛过程中，有超过 50 支参赛队伍提交了超过 0.80 分的预测结果，最后技术组的冠军团队以 0.03 分的微弱优势胜出，战况激烈，精彩纷呈。比赛结束后，中学组与技术组的所有获奖选手都收到了姚期智院士亲笔签名的比赛证书。在决赛答辩暨颁奖仪式直播活动中，姚先生特别为大家送上了祝福，「希望同学们接触 AI 技术的同时，也抱有利用 AI 技术让人类发展越来越好的信念」。

海华研究院

中关村海华信息技术前沿研究院是由姚期智院士捐赠出资创办成立的民办非企业单位，依托海淀区政府的扶持，旨在承担新型研发机构和新型智库的使命，做好联结学术界、产业界的桥梁。

海华研究院背靠清华大学交叉信息研究院的人才团队，以交叉信息院近些年在计算经济学、芯片研发、经济学、大数据、区块链、金融科技、监管科技、人工智能等诸多领域的世界级研究成果为基础，致力于建成未来汇聚和培养青年科研人才，实践跨学科、跨领域技术整合项目，实现前沿科研和技术落地相结合的核心载体。在聚集世界领先人工智能科研团队的同时，培育国际优秀人工智能人才，推动人工智能创新协同发展，助力科技成果转化和应用落地实践，力争成为国际人工智能发展的领军者。

References

Hermann, Karl Moritz, Tomáš Kočiský, Edward Grefenstette, Lasse Espeholt, Will Kay, Mustafa Suleyman, and Phil Blunsom. "Teaching machines to read and comprehend." arXiv preprint arXiv:1506.03340 (2015).
Rajpurkar, Pranav, Jian Zhang, Konstantin Lopyrev, and Percy Liang. "Squad: 100,000+ questions for machine comprehension of text." arXiv preprint arXiv:1606.05250 (2016).
Rajpurkar, Pranav, Robin Jia, and Percy Liang. "Know what you don't know: Unanswerable questions for SQuAD." arXiv preprint arXiv:1806.03822 (2018).
Welbl, Johannes, Pontus Stenetorp, and Sebastian Riedel. "Constructing datasets for multi-hop reading comprehension across documents." Transactions of the Association for Computational Linguistics 6 (2018): 287-302.
Nguyen, Tri, Mir Rosenberg, Xia Song, Jianfeng Gao, Saurabh Tiwary, Rangan Majumder, and Li Deng. "MS MARCO: A human generated machine reading comprehension dataset." In CoCo@ NIPS. 2016.
He, Wei, Kai Liu, Jing Liu, Yajuan Lyu, Shiqi Zhao, Xinyan Xiao, Yuan Liu et al. "Dureader: a chinese machine reading comprehension dataset from real-world applications." arXiv preprint arXiv:1711.05073 (2017).
Lai, Guokun, Qizhe Xie, Hanxiao Liu, Yiming Yang, and Eduard Hovy. "Race: Large-scale reading comprehension dataset from examinations." arXiv preprint arXiv:1704.04683 (2017).
Sun, Kai, Dian Yu, Jianshu Chen, Dong Yu, Yejin Choi, and Claire Cardie. "Dream: A challenge data set and models for dialogue-based reading comprehension." Transactions of the Association for Computational Linguistics 7 (2019): 217-231.
Ostermann, Simon, Ashutosh Modi, Michael Roth, Stefan Thater, and Manfred Pinkal. "Mcscript: A novel dataset for assessing machine comprehension using script knowledge." arXiv preprint arXiv:1803.05223 (2018).
Reddy, Siva, Danqi Chen, and Christopher D. Manning. "Coqa: A conversational question answering challenge." Transactions of the Association for Computational Linguistics 7 (2019): 249-266.
Dua, Dheeru, Yizhong Wang, Pradeep Dasigi, Gabriel Stanovsky, Sameer Singh, and Matt Gardner. "DROP: A reading comprehension benchmark requiring discrete reasoning over paragraphs." arXiv preprint arXiv:1903.00161 (2019).
https://www.zhihu.com/question/59227800
Zheng, Chujie, Minlie Huang, and Aixin Sun. "Chid: A large-scale chinese idiom dataset for cloze test." arXiv preprint arXiv:1906.01265 (2019).