Google 全新的语音翻译,难以想象这是一个机器人说的话

百家 作者:爱范儿 2019-05-20 14:14:07


首先请听一下面这段录音。

▲ 能够模仿语气和声线的翻译. 音频来自:Google AI Blog

如果我不说,你能听得出这段录音其实是机器翻译的录音吗?
确实,与大家所熟知的生硬的语音翻译不同,这段录音的翻译更加的自然,甚至还略带一点语气。这其实是出自于 Google 的全新翻译系统。
近日,Google 研究团队在博客上介绍了一款可以模仿语调、声线的全新 AI 翻译系统——Google Translatotron。
▲图片来自:NYTimes
包括大家常用的 Google 翻译在内, 现在绝大多数的翻译系统的工作流程都分为三步:首先是将原语音识别成文本,然后对文本翻译目标语言,最后再进行文本到语音的合成。
由于在声音转化为文字时,原语音的语气等信息是无法进行转化的,所以也就解释了为什么我们现在所使用的翻译系统,语音生硬,且无法模仿原语音的语气的。
▲图片来自:KCBI
那 Google Translatotron 又是怎么做到的?
这就要从 Google Translatotron 的工作方式说起了。这个全新的翻译系统,不通过语音来进行翻译、也不通过文字来进行翻译,而其实是通过图像来进行翻译。
再具体一点就是当用户向 Google Translatotron 说出一段需要翻译的话后,系统就会根据这段语音生成一段声音图谱,然后经过大量针对性训练的系统 AI 会对图谱进行分析,并且根据分析结果再直接生成回一张目标语言的语音图谱,最后系统对声音图谱进行播放,就得出了像文章开头的录音那样,带有「语气」的翻译了。
▲Google Translatotron 的工作模型 . 图片来自:Google AI Blog
另外,该系统还接入了声源编码器来对声音进行处理,这就使得了 Translatotron 生成的目标语音不仅可以模仿用户原话中的语气,甚至可以在一定程度上模仿用户的声线。
负责该翻译系统的 Google AI 工程师 Ye Jia 以及 Ron Weiss 表示,省去中间转化为文本的步骤,不仅意味着翻译的速度更快了,也意味着更少的错误。
▲图片来自:The Economic Times
包括文章开头的音频在内,Google 在博客中放出了数段由 Translatotron 把西班牙语翻译成英语的测试样例。
从样例中我们依旧可以听到机器生成语音的痕迹,但是相比起现在大多由文本生成的语音,Translatotron 所生成的语音显然更为自然,而且也可以在一定程度上模仿了原语音的语调以及声线,保留了更多重要的「情感信息」。
不过目前该研究还是处于实验室研究阶段。包括翻译准确性,嘈杂场景下的可用性等 Google Translatotron 都需要进行更多的优化。
但是正如 Google 工程师们在博客中所说的一样,该项研究将会成为未来翻译技术的一个新起点。
题图来自:Fortune


好看的人都点了在看

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接