酷应用

合成数据助力亚马逊Alexa学会第十门外语，还会自己造句

百家作者：大数据文摘 2019-10-25 06:28:16

大数据文摘出品

来源：venturebeat

翻译：徐玲、曹培信

学一门外语需要多长时间？

如果说大部分中国人的一外是英语，已经学了十几年甚至几十年了，那么学一门二外需要多久呢？你能同时学好几门外语吗？

文摘菌反正是做不到的，但是亚马逊的Alexa就一次性学习了三门外语，至此Alexa学会的语言已经达到了10种。

最近，亚马逊高级科研经理Janet Slifka在Alexa博客上的一篇文章中表示，Alexa又学会了新的全球性语言：印地语、美国西班牙语和巴西葡萄牙语，合成数据（Synthetic data）在这方面起到了很大的帮助，但这不是最终的万能解决方案，这些语言需要新的引导工具。

其中一个工具是由亚马逊的Alexa AI应用建模和数据科学小组开发的，它使用一种名为“语法归纳（Grammar Induction）”的技术来分析“黄金例句（Golden Utterances）”（即Alexa功能团队提出的典型用户请求示例）并产生一系列可以生成相似句子的表达式。

另一种是“引导重采样（Guided Resampling）”，它通过从现有数据中的例子中重组单词和短语来创造新句子，重点是优化句子类型的数量和分布。

Slifka指出，当Alexa的新语言版本处于积极开发阶段时，团队会为系统编译训练数据，以了解用户的意图，Alexa的一部分训练数据来自人工智能模型翻译的现有语言，其余部分通常来自工作人员和一款向用户提供提示性信息的Alexa语音应用Cleo。

该语法系统使用一种称为贝叶斯模型的技术来合成一种代表性语法，或者通过插入、删除和替换单词来改变基本模板句的一组重写规则。通常情况下，一个计算语言学家一天可能要处理50个例句，但该工具通过识别话语列表中的模式并使用它们为数千个模板生成100多个候选规则，将处理过程缩短到几秒钟。例如，如果两个词(如“pop”和“rock”)出现在相似的句法位置上，但围绕它们的短语却各不相同，它可能会提出一个候选规则，即“pop”和“rock”在某些上下文中可以互换。

并且，语法系统可以自动确定哪些规则在样本数据中造成了最大的差异(而不会以偏概全)，这些规则在流程的进一步迭代中成为合格的变量。还有另外一个好处是它能够利用现有的Alexa目录中频繁出现的术语或短语。例如，如果例句是与体育相关的，并且它确定“凯尔特人”和“湖人”这两个词是可以互换的，那么它就会得出这样的结论:它们也可以与“勇士”、“马刺”、“尼克斯”和其他所有Alexa知道的NBA球队的名字互换。

至于引导重采样工具，它同样使用目录和现有的示例来扩充自然语言理解训练数据。具体来说，它通过替换话语中的元素来生成额外的训练样本，例如：“play Justin Bieber” 和 “can you play a song by Camila Cabello?” 使用所谓的Jaccard指数来评估内容之间的两两相似（Jaccard指数度量两个集合之间的重叠-在这个例子中，是不同类型请求中的内容。）其结果是，该系统为更复杂的话语数据模式生成比例更大的训练集，Slifka指出，这有助于人工智能模型实现更高的性能。

Slifka写道:“Alexa一直在变聪明，AMDS研究人员的这些创新，将有助于确保Alexa在新的语言领域发布时获得尽可能好的体验。”

相关报道：

https://venturebeat.com/2019/10/11/amazon-explains-how-alexa-learns-new-languages/

实习/全职编辑记者招聘ing

加入我们，亲身体验一家专业科技媒体采写的每个细节，在最有前景的行业，和一群遍布全球最优秀的人一起成长。坐标北京·清华东门，在大数据文摘主页对话页回复“招聘”了解详情。简历请直接发送至zz@bigdatadigest.cn

志愿者介绍

后台回复“志愿者”加入我们