酷应用

谷歌发布升级版Tacotron 2，打造从文本到人声的完美转换

百家作者：DeepTech深科技 2017-12-22 14:08:26

年度订阅用户可加入科技英语学习社区，每周科技英语直播讲堂，详情请查看“阅读原文”

将文本转换为自然语音（TTS）的技术已经研究了十几年。过去几年，TTS 已经取得了巨大进展，一个完整 TTS 的各个单独子系统也都有很大改善。而谷歌通过结合 Tacotron 和 WaveNet 等过去研究工作的思路，其发布的新产品 Tacotron 2 有了进一步提升。谷歌没有使用复杂的语言和声学功能作为输入。相反，谷歌的产品用神经网络生成人声，它仅仅是由语音示例和相应的文本训练得到的。

在《Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions》这篇论文中，谷歌对新系统有全面的介绍。简而言之，它的工作原理是这样的：谷歌用序列到序列（sequence-to-sequence）模型优化的 TTS，将字母序列映射为音频编码序列的功能。在一段 12.5 毫秒一帧的音频频谱图中，系统不仅能捕捉单词发音，还能获取音量、语速、语调等很多细节。最终，这些特性将经由一个类似 WaveNet 的架构转化为一段 24KHz 的波形。

论文地址：https://arxiv.org/abs/1712.05884

图丨 Tacotron 2 模型架构详解图，图片下半部分展示了序列对序列模型如何将字母序列映射成音频谱，更多技术细节请参考论文。

用户可以听一下 Tacotron 2 的音频样本，这些样本是谷歌最新 TTS 系统的成果。在一次评估中，谷歌邀请听众对生成语音的自然度进行评级，谷歌获得了能够与专业录音媲美的评分。

虽然谷歌的样本听起来还不错，但仍有一些棘手问题需要解决。比如，系统在复杂单词（比如“decorum”与“merlot”）的发音上有困难。极端情况下，它甚至会随机产生奇怪的噪音。另外，系统还不能实时生成音频。而且，谷歌还不能对生成的语音进行控制，比如让它听起来开心或忧伤。每个问题都是一个有趣的研究课题。

-End-

编辑：孙小彪校审：郝锕铀

参考：

https://research.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html