酷应用

吴文俊人工智能科技进步奖颁出首个特等奖，文心一言背后技术竟是它

百家作者：机器之心 2023-05-09 22:03:59

机器之心原创

作者：张倩

人工智能技术和产业发展正进入一个新的临界点。

「我要从三里屯的团结湖地铁站出发路过望京的家乐福然后再去南锣鼓巷最后到我家，我要红绿灯少的不堵车的最快的路线，你帮我路线规划一下吧。」在 2018 年的百度 AI 开发者大会上，百度 CTO 王海峰现场表演了这样一段「Rap」。

在众人还没反应过来之际，内置小度语音助手的百度地图已经把路线规划了出来，现场响起一片欢呼。此时，人们惊讶地发现：对话类语音助手的进步原来如此迅速。不知不觉间，它们已经能帮人类做很多事情。

2023 年 3 月问世的文心一言让这种感觉变得更加强烈：它不仅能写小说、商业文案、新闻稿，还能应对一些数理逻辑推算等复杂任务，大大拓宽了国内对话类 AI 产品的能力边界。

最近，这些成绩获得了来自中国智能科学技术最高奖 ——「吴文俊人工智能科学技术奖」的肯定。

「吴文俊人工智能科学技术奖」是以我国智能科学研究的开拓者和领军人、首届国家最高科学技术奖获得者、中国科学院院士吴文俊先生命名，依托社会力量设立的科学技术奖，具备提名推荐国家科学技术奖资格，代表我国人工智能领域的最高荣誉。

在这届颁奖活动中，王海峰带领团队完成的「知识与深度学习融合的通用对话技术及应用」成果，荣获「2022 年度吴文俊人工智能科技进步奖特等奖」，这也是该奖项设立以来颁发的首个特等奖。不过，这并不是王海峰第一次获奖，早在 2018 年，他就拿到了吴文俊人工智能科学技术奖的杰出贡献奖，而且是该奖项的首位获得者。

在通用对话领域，王海峰带领的百度团队究竟做出了什么不一样的东西，才能获颁如此重要的奖项？我们还要从通用对话的技术特点、应用价值等方面说起。

打破人机交互次元壁，通用对话系统需要「知识」

自然语言是人与人之间沟通交流的主要媒介，也是人类希望与计算机进行交互的方式。在实现这一目标之前，人类先后经历了命令行界面、图形用户界面等阶段，直到最近才有望真正进入自然语言交互阶段。

不过，这一阶段依然存在很多待解决的问题，比如对话不连贯、语音听不清、理解不准确、回复有错误…… 王海峰带领的百度技术团队认为，要解决这些问题，让模型拥有并运用「知识」非常重要，也就是将知识与深度学习融合到一起。

但在实际操作中，这并不是一件容易的事。

首先，对话依赖的知识类型多、范围广，而且缺乏统一的表示机制。在进行对话时，计算机需要获取并理解各种类型和领域的知识，如常识、科学、历史、文化、技术等，以及具体的领域知识，如医学、法律、金融等。然而，这些知识往往以不同的形式和表示方式存在，没有统一的标准或机制来整合它们。例如，知识可以以结构化的形式存储在数据库中，以文本的形式存在于百科全书或网页中，或者以非结构化的形式存在于自由文本、论文、博客等中。这种多样性使得获取、整合和应用这些知识变得具有挑战性。

其次，符号化的对话知识与向量化的深度学习隐式表示异构，难以有效融合。符号化的对话知识依赖于明确的规则和逻辑推理，而向量化的深度学习表示则更加隐式且基于数据驱动，缺乏明确的语义规则，二者天然难以融合。

针对这些挑战，王海峰团队提出了对话知识的统一表示方法，通过知识的内化和外用实现了知识与深度学习的有效融合。

知识内化是从大规模知识和无标注数据中，基于语义单元学习，利用知识构造训练数据，将知识学习到模型参数中；知识外用是指有些知识在模型参数中未内化进去，但可以在推理过程中引入外部多源异构知识，做知识推理、提示构建等。

利用这些技术，王海峰团队在融合知识的对话管理、对话语音识别、对话理解和对话生成上取得了重大突破：

在对话管理方面，团队提出了基于知识统一表示的通用对话管理技术，通过攻克对话知识统一表示与构建的难题，为通用对话奠定了知识基础。他们还突破了对话内容全局规划的技术瓶颈，并实现了基于知识外用的通用对话管理技术，从而提升了对话的连贯性和条理性。

在对话语音识别方面，团队提出了融合知识的流式对话语音识别技术，通过攻克基于知识内化的语音流式局部注意力机制和语音置信度计算等关键技术，实现了对话语音识别精度与延迟的平衡。此外，团队还开发出了高精度、低延迟、低功耗、全双工的对话语音交互芯片，显著提升了语音唤醒和全双工语音交互的抗噪性和鲁棒性。

在对话理解方面，团队提出了知识增强的通用对话理解技术，突破了基于知识内化的小样本学习、反馈驱动的持续学习等关键技术，解决了对话理解训练数据稀缺、自学习能力弱的难题，实现了迁移成本低、可持续在线优化的对话理解模型，显著提升了对话理解准确度及对话满足度。

在对话生成方面，团队提出了基于隐变量与知识的对话生成技术，攻克了对话行为多样性建模难题，突破了知识内化与外用相结合的通用对话生成技术。此外，他们还研制了全球首个百亿参数对话预训练生成模型，实现了内容丰富、知识准确、自然流畅的对话。

公开资料显示，该项目已获授权发明专利 82 项，发表高水平论文 36 篇，在国际权威评测中获世界冠军 11 项。

当然，其应用范围也是相当广泛：以小度智能硬件产品、智能搜索、智能车载等形式支持了 5 亿智能设备，覆盖人群超过 10 亿，服务的行业超过 20 个，包括通信、金融、汽车、能源等等。

更令人振奋的是，该项目的成果已经成功落地并应用于百度新一代知识增强大语言模型文心一言。

百度通用对话技术落地重要节点：文心一言

在 3 月份的新闻发布会上，王海峰曾介绍说，文心一言基于文心大模型 ERNIE 及对话大模型 PLATO 研发，具备有监督精调、人类反馈的强化学习、提示、知识增强、检索增强和对话增强六大核心技术模块。前三项是大语言模型都会采用的技术，后三项是百度已有技术积累的再创新，也是百度的独特优势所在。

文心大模型的定位是产业级知识增强大模型，因此，知识增强本就是重中之重。通过从海量的知识和数据中融合学习，模型能够实现更高的效率、更好的效果、更强的可解释性。做到这些就需要我们前面提到的知识内化和知识外用，这离不开知识图谱的加持，比如用知识图谱构造数据、构建提示等等。百度拥有业界最大的多源异构知识图谱，包含了 50 亿实体和 5500 亿事实，而且一直在不断演进和更新。

此外，百度通用对话技术中的对话增强也在文心一言中发挥了重要作用，其中所涉及的记忆机制、上下文理解和对话规划能力帮助文心一言实现了更好的对话连贯性、合理性和逻辑性。记忆机制可以理解为让模型在多轮对话中记住前面说了什么，上下文理解则要求模型理解前面已经说过的话的含义，对话规划则涉及抓住整场对话的核心要点并理清对话结构等。

不管什么样的公司，都不可能在几个月的时间里靠突击做出来这样复杂的技术，文心一言是百度用十几年的研发投入慢慢积累起来的。从这个角度来看，文心一言其实可以理解为百度在通用对话等技术方向上努力了十几年之后积累出的一个重要节点。

而这个节点之所以能诞生，离不开百度多年来建立的四层 IT 架构 —— 芯片层、框架层、模型层和应用层。在每一层，百度都拥有领先的自研技术和产品，而且它们之间能形成层到层的反馈、端到端的优化，尤其是框架层的飞桨和模型层的文心大模型。

飞桨支撑了文心一言从开发训练到推理部署的整个流程。在开发训练层面，飞桨动静统一的开发范式和自适应分布式架构，实现了大模型的灵活开发和高效训练；在推理部署层面，飞桨支持大模型高效推理，提供服务化部署能力，包括计算融合、软硬协同的稀疏量化、模型压缩等。最近，飞桨又专门针对文心一言做了专项优化，一个月内迭代了4次，推理性能提升10倍，其中业内首创的支持动态插入的分布式推理引擎，推理性能提升了123%。

人工智能技术和产业发展正进入一个新的临界点

「整体技术指标与应用效果达到国际领先水平，极大地提升了我国在这一领域的科技竞争力和产业影响力。」这是参与吴文俊人工智能科技进步奖评审的院士专家给予王海峰团队工作的评价，也是对该团队在通用对话领域多年工作的一个恰当总结。

为什么该团队如此执着于通用对话方向？王海峰在获奖感言中给出了答案：通用对话技术是人工智能领域最具挑战性的方向之一，也被认为是通用人工智能的必备能力。如今备受关注的对话式人工智能，其背后就有通用对话技术。

而且，随着以往的瓶颈被逐个攻破，通用对话技术的成果正在走向各行各业，以及大众的日常生活，有望带来新一轮产业变革。

在近期北京科技创新十年回顾的采访中，王海峰说，人工智能技术和产业发展正进入一个新的临界点，「我们看到，大语言模型，开始出现一些人们过去认为人工智能不会具有的能力，例如更强的创作能力、逻辑能力、推理能力甚至情感理解和情感生成能力等等。」这些突然「涌现」的能力究竟还能做哪些事情，目前我们还没有看到上限。

正如我们所看到的，王海峰团队基于通用对话等技术打造的文心一言等产品目前还在不断迭代升级。借助来自真实世界的反馈，这些产品正在飞速进步，未来将「会在我们能想到的、没想到的方方面面带给人类前所未有的价值。」

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

关注公众号：拾黑（shiheibook）了解更多

[广告]赞助链接：

*文章为作者独立观点，不代表爱尖刀立场

本文由机器之心发表，转载此文章须经作者同意，并请附上出处( 爱尖刀 )及本页链接。

原文链接 https://www.ijiandao.com/2b/baijia/456822.html

文心一言吴文俊人工智能

图库