谷歌发布升级版Tacotron 2,打造从文本到人声的完美转换

年度订阅用户可加入科技英语学习社区,每周科技英语直播讲堂,详情请查看“阅读原文”
将文本转换为自然语音(TTS)的技术已经研究了十几年。过去几年,TTS 已经取得了巨大进展,一个完整 TTS 的各个单独子系统也都有很大改善。而谷歌通过结合 Tacotron 和 WaveNet 等过去研究工作的思路,其发布的新产品 Tacotron 2 有了进一步提升。谷歌没有使用复杂的语言和声学功能作为输入。相反,谷歌的产品用神经网络生成人声,它仅仅是由语音示例和相应的文本训练得到的。

在《Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions》这篇论文中,谷歌对新系统有全面的介绍。简而言之,它的工作原理是这样的:谷歌用序列到序列(sequence-to-sequence)模型优化的 TTS,将字母序列映射为音频编码序列的功能。在一段 12.5 毫秒一帧的音频频谱图中,系统不仅能捕捉单词发音,还能获取音量、语速、语调等很多细节。最终,这些特性将经由一个类似 WaveNet 的架构转化为一段 24KHz 的波形。
论文地址:https://arxiv.org/abs/1712.05884

图丨 Tacotron 2 模型架构详解图,图片下半部分展示了序列对序列模型如何将字母序列映射成音频谱,更多技术细节请参考论文。
用户可以听一下 Tacotron 2 的音频样本,这些样本是谷歌最新 TTS 系统的成果。在一次评估中,谷歌邀请听众对生成语音的自然度进行评级,谷歌获得了能够与专业录音媲美的评分。
虽然谷歌的样本听起来还不错,但仍有一些棘手问题需要解决。比如,系统在复杂单词(比如“decorum”与“merlot”)的发音上有困难。极端情况下,它甚至会随机产生奇怪的噪音。另外,系统还不能实时生成音频。而且,谷歌还不能对生成的语音进行控制,比如让它听起来开心或忧伤。每个问题都是一个有趣的研究课题。
-End-
编辑:孙小彪 校审:郝锕铀
参考:
https://research.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html

关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号随时掌握互联网精彩
- 1 中央经济工作会议在北京举行 7904019
- 2 紧急提醒:请在日中国公民进行登记 7808310
- 3 中央定调明年继续“国补” 7714466
- 4 “九天”无人机成功首飞 7616968
- 5 断崖式降温!今冬最强寒潮来了 7523651
- 6 中央经济工作会议释信号:3件事不做 7427483
- 7 中国“空中航母”首飞成功 7330918
- 8 00后女生摆摊卖水培蔬菜日售千元 7233003
- 9 人民空军中日双语发文:大惊小怪 7136283
- 10 寒潮来袭 “速冻”模式如何应对 7046539







DeepTech深科技
