谷歌发布升级版Tacotron 2,打造从文本到人声的完美转换

年度订阅用户可加入科技英语学习社区,每周科技英语直播讲堂,详情请查看“阅读原文”
将文本转换为自然语音(TTS)的技术已经研究了十几年。过去几年,TTS 已经取得了巨大进展,一个完整 TTS 的各个单独子系统也都有很大改善。而谷歌通过结合 Tacotron 和 WaveNet 等过去研究工作的思路,其发布的新产品 Tacotron 2 有了进一步提升。谷歌没有使用复杂的语言和声学功能作为输入。相反,谷歌的产品用神经网络生成人声,它仅仅是由语音示例和相应的文本训练得到的。

在《Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions》这篇论文中,谷歌对新系统有全面的介绍。简而言之,它的工作原理是这样的:谷歌用序列到序列(sequence-to-sequence)模型优化的 TTS,将字母序列映射为音频编码序列的功能。在一段 12.5 毫秒一帧的音频频谱图中,系统不仅能捕捉单词发音,还能获取音量、语速、语调等很多细节。最终,这些特性将经由一个类似 WaveNet 的架构转化为一段 24KHz 的波形。
论文地址:https://arxiv.org/abs/1712.05884

图丨 Tacotron 2 模型架构详解图,图片下半部分展示了序列对序列模型如何将字母序列映射成音频谱,更多技术细节请参考论文。
用户可以听一下 Tacotron 2 的音频样本,这些样本是谷歌最新 TTS 系统的成果。在一次评估中,谷歌邀请听众对生成语音的自然度进行评级,谷歌获得了能够与专业录音媲美的评分。
虽然谷歌的样本听起来还不错,但仍有一些棘手问题需要解决。比如,系统在复杂单词(比如“decorum”与“merlot”)的发音上有困难。极端情况下,它甚至会随机产生奇怪的噪音。另外,系统还不能实时生成音频。而且,谷歌还不能对生成的语音进行控制,比如让它听起来开心或忧伤。每个问题都是一个有趣的研究课题。
-End-
编辑:孙小彪 校审:郝锕铀
参考:
https://research.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html

关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号随时掌握互联网精彩
- 1 习近平将发表二〇二六年新年贺词 7904141
- 2 2026年国补政策来了 7808738
- 3 东部战区:开火!开火!全部命中! 7712893
- 4 2026年这些民生政策将惠及百姓 7616985
- 5 小学食堂米线过期2.5小时被罚5万 7519709
- 6 解放军喊话驱离台军 原声曝光 7428214
- 7 为博流量直播踩烈士陵墓?绝不姑息 7327605
- 8 每月最高800元!多地发放养老消费券 7238391
- 9 数字人民币升级 1月1日起将计付利息 7141831
- 10 2026年1月1日起 一批新规将施行 7040675








DeepTech深科技
