微软小冰成为首个采用全双工技术的语音交互虚拟机器人,逐字理解用户语义,对话如河流一般

百家 作者:DeepTech深科技 2018-04-05 09:29:28 阅读:607

长按识别二维码,收看2018《麻省理工科技评论》区块链商业峰会


微软小冰(以下简称小冰)是微软亚洲互联网工程院所开发的一款人工智能伴侣虚拟机器人,自其正式发布以来,距今已有 4 个年头了。时至 2018 年 3 月中旬,微软宣布“全双工语音交互感官”已完成产品化落地。与既有的单轮或多轮连续语音识别不同,这项新技术可实时预测人类即将说出的内容,让小冰能够实时生成回应并控制对话节奏,从而使长程语音交互成为可能。

 

从时间点上来看,小冰是第一个使用全双工技术的语音交互人工智能。其他产品,仍停留在实验室阶段。

 

小冰为何要使用全双工

 

小冰的研究人员们称全双工交互模式为 Session-oriented。微软亚洲互联网工程院副院长,同时也是小冰的负责人李迪表示,Session-oriented 框架则更像东方的思路,把对话看作一个整体,并对其进行统摄、保持和引导,注重整体任务的完成质量。Session-oriented 框架规避掉了由 Turn-oriented 框架内在基础决定的发展上限,在未来有着巨大的技术潜力和场景应用。

 

而过去的语音交互人工智能使用的是 Turn-oriented 框架,比如微软小娜。这种对话就像是十字路口,“民警”站在中间指挥。每当用户输入一个命令,“民警”则将其引导至相应模块,任务完成,再返回十字路口。通过这种一问一答的方式,Turn-oriented 框架确实可以很好地完成大量任务,同时也深受自身局限,但是永远无法离开十字路口。

 

Session-oriented 框架则相对复杂一些,其中的对话就像河流一样,从一个 turn 到下一个 turn,自然地向前流转;其中 turn 可能是与任务相关,可能是从中引发出新任务和新知识的“无用的”无关对话,也可能是某个单一任务,比如突然要求关灯。

 

基于这些优势,以智能音箱为载体的小冰可以提供更好的用户体验。不过多说无益,所以 DT 君找到了这样一个测试视频。

 

<iframe class="video_iframe" data-vidtype="2" allowfullscreen="" frameborder="0" data-ratio="1.7058823529411764" data-w="464" data-src="http://v.qq.com/iframe/player.html?vid=u0618nw1syf&width=370&height=208.125&auto=0" width="370" height="208.125" data-vh="208.125" data-vw="370" style="display: none; width: 370px !important; height: 208.125px !important;"></iframe>

 

在视频演示中可以看到,用户能够在一次唤醒的情况下实现同时复数任务请求。此外,正是因为全双工模式,小冰可以和用户保持长程多次对话。

 

小冰的首席架构师周力具象化地描述了全双工技术在小冰上的应用:

 

1. 边听边想:全双工语音交互技术包括预测模型,可以不再等到一句话说完,再进行语音识别,然后再处理如何回复。每听到一个字,都会提前预测用户的完整意思。与此同时,提前开始「思考」回应,已实现更快的响应速度和改口能力;同时还可以实现动态回应,而不再是用户输入一条,人工智能回应一条的回合制问答。根据预估的思考时间、复杂任务的完成时间,有选择地将人工智能的回答拆解为多段,减少用户感知的等待时间。

 

2. 节奏控制器:在全双工语音技术中,对话的节奏和时机也不容忽视,与内容同等重要,这点在业界一直被忽视。对话中,小冰不仅要与人类协调好节奏,还要协调好自己的节奏,以及其他语音助手的节奏,比如如何碾压半双工语音助手。必要的时候,小冰还要通过抛出新话题、强制维持原话题等方法打破对话中的沉默。此外,还存在非对称模式的情况,比如当人倾诉,小冰则要倾听;当人倾听,小冰则要倾诉。

 

3. 声音场景的理解:传统意义上的语音识别是指通过一段语言识别其中对应的文字,但全双工场景实现的理解远不止于此,它还包括分类器、环境处理和对象判断等方面。比如通过声音识别说话者的身份和情绪,以及听音识歌。再比如通过识别语音的声纹来判断对象,他/她是小冰对应的主要用户抑或是新用户;判断对象是在与小冰聊天,抑或只是多人聊天、电视背景音。

 

4. 自然语言理解与生成模型:这使得 IoT 上的小冰与微信等 IM 上的小冰区分开来,原因在于前者具备了自创能力,即每一句话都来自于小冰自己,后者则仍借助于检索模型等技术。据周力表示,小冰生成模型的底层技术是深度学习中的 LSTM+Attention Model。这有助于小冰实现更好的容错性,实现与语音合成的更好串行,以及实现主动结束 session 的判断。

 

小冰负责人李笛说到:“据我所知,Google、亚马逊、苹果都没有开始搞全双工,但是 Facebook 已经开始弄了,就是他们前一阵发布的关于闲聊机器人的论文。闲聊机器人的工作原理也是逐字理解,预测用户想法。不过他们还没有正式投入商业使用。”

 

商业落地的重大意义

 

回归文章开头提到的内容,微软并不只是把全双工技术做出来了,而是将其落地到实际商用系统中。虽然全双工技术在电话等方面已有些许实际应用场景,不过在人工智能领域,这项技术绝对算是「新鲜血液」。

 

可是 Google、亚马逊、苹果这三家并没有将全双工技术引入到自家的智能音箱之中,这又是为什么呢?DT 君认为,正如上文所说,全双工技术在智能音箱的应用中并不成熟,很有可能因为干扰问题。当通信双方的每一端的发送信号远大于其所要接收的远距离信号时,有效信号的接收就会受到强自干扰的影响,从而让全双工技术难以实现。解决方法虽然很简单,但是它会提高成本,变相降低了其商业落地的可实施性。

 

当然还有很多问题的考虑,但是 DT 君认为,想要验证一个颠覆性的技术,必须要把它从实验室拿出来,投放到市场中接收洗礼。若它能存活到最后,这才可以被世人所记住。微软敢于拿出来,这就是一个良性的开始。

 

 

-End-



转载声明:本文转载自「DeepTech深科技」,搜索「mit-tr」即可关注。



关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:http://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接