酷应用

当语音文本转换系统也能被黑，Alexa可能听不懂你说啥了…

百家作者：硅谷洞察 2018-01-24 07:26:06

硅谷Live / 实地探访 / 热点探秘 / 深度探讨

如果你的智能助手再也听不出你究竟在说什么。。。

日前，加州大学伯克利分校的两位计算机科学家发明了一种利用 AI 技术来攻击语音文本转换系统的方法。也就是说，他们可以让任何种类的音频被系统转化成他们所想要生成的文本。

这种科技听起来很酷吧！但实际上它属于最为“惊悚”的 AI 用途之一。

Nicholas Carlini 和 David Wagner 就是这一发现的背后功臣，他们两个成功地让 Mozilla 最为流行的开源语音文本转换系统自乱阵脚。

在他们发表的文论中写道：“无论给出怎样的音频波形，我们都可以制作出另一个与它 99.9% 相似的音频，而这个音频最终被转换器转换出的文本完全受我们的控制（其音频转换上限为每秒 50 字符）。。。我们的攻击目前 100% 成功，无论人们想要的文本是什么，或者最初的音频说了什么。即使是一段没有语句，类似音乐的音频我们也可以将话语嵌进去。当然，我们也可以将音频中原有的语句藏起来。”

这意味着，掌握这一项技术的人可以通过任何一个音频文件来欺骗语音文本转换系统，例如，你的谷歌助手，Siri，或者 Alexa，让它们以为你在说一些你完全没说过的话。而这对于已经广泛使用着语音助手的现代社会必然是一个可怕的威胁。

在接受 TNW 记者的采访时，Carlini 说到：“在之前与乔治城的其他研究者合作的过程中，我们建立了一个叫做 ‘Hidden Voice Commands’ 的系统来攻击手机上的音频识别系统。这些攻击在你我听来就是不知所谓的噪声，但是对于智能手机来说却是一些特殊的信号（例如，“你好谷歌，浏览 evil.com”）。”

当然，当听到一段不正常的音频时，正常人都可以意识到可能出现了一些问题。这就是为什么这些研究者将这一项目推进到了今天这个阶段。Carlini 继续说道：“所以，在这篇文章中，我希望攻击可以更隐秘。我希望达到可以将任意音频都转变成其他文本的程度。这样，我就可以选取任意一个视频，给它加上一些对抗性噪声，重新上传它，然后等待着语音文本转换系统将他转录成完全不一样的信息。而听到这一音频的人却不会觉得有任何异常。”

Carlini 也指出这一攻击有其限制性。目前，它只对 Deep Speech 系统起作用。幸好，Siri，Alexa 或者谷歌助手都没有使用这一系统。

但是，别开心得太早。事实上，这只是时间问题。Carlini 认为，只要再多花一些时间，就有人可以让他们的对抗性音频通过空中激活造成更加严重的后果。

这些研究者正站在一场崭新战役的前沿。他们不断向我们展示着离我们最近的AI 应用，即智能助手的弱点。

如果一场对战中的所有音控设备都失效了，甚至是有人可以远程对它们进行调控，我们该如何教会 Alexa 遮住她的耳朵呢？

本文编译自 TNW。

想和探长聊一聊？来加探长个人微信号 svinsight