合成数据助力亚马逊Alexa学会第十门外语,还会自己造句

百家 作者:大数据文摘 2019-10-25 06:28:16

大数据文摘出品

来源:venturebeat

翻译:徐玲、曹培信


学一门外语需要多长时间?


如果说大部分中国人的一外是英语,已经学了十几年甚至几十年了,那么学一门二外需要多久呢?你能同时学好几门外语吗?


文摘菌反正是做不到的,但是亚马逊的Alexa就一次性学习了三门外语,至此Alexa学会的语言已经达到了10种。


最近,亚马逊高级科研经理Janet Slifka在Alexa博客上的一篇文章中表示,Alexa又学会了新的全球性语言:印地语、美国西班牙语和巴西葡萄牙语,合成数据(Synthetic data)在这方面起到了很大的帮助,但这不是最终的万能解决方案,这些语言需要新的引导工具。



其中一个工具是由亚马逊的Alexa AI应用建模和数据科学小组开发的,它使用一种名为“语法归纳(Grammar Induction)”的技术来分析“黄金例句(Golden Utterances)”(即Alexa功能团队提出的典型用户请求示例)并产生一系列可以生成相似句子的表达式。


另一种是“引导重采样(Guided Resampling)”,它通过从现有数据中的例子中重组单词和短语来创造新句子,重点是优化句子类型的数量和分布。


Slifka指出,当Alexa的新语言版本处于积极开发阶段时,团队会为系统编译训练数据,以了解用户的意图,Alexa的一部分训练数据来自人工智能模型翻译的现有语言,其余部分通常来自工作人员和一款向用户提供提示性信息的Alexa语音应用Cleo。


该语法系统使用一种称为贝叶斯模型的技术来合成一种代表性语法,或者通过插入、删除和替换单词来改变基本模板句的一组重写规则。通常情况下,一个计算语言学家一天可能要处理50个例句,但该工具通过识别话语列表中的模式并使用它们为数千个模板生成100多个候选规则,将处理过程缩短到几秒钟。例如,如果两个词(如“pop”和“rock”)出现在相似的句法位置上,但围绕它们的短语却各不相同,它可能会提出一个候选规则,即“pop”和“rock”在某些上下文中可以互换。



并且,语法系统可以自动确定哪些规则在样本数据中造成了最大的差异(而不会以偏概全),这些规则在流程的进一步迭代中成为合格的变量。还有另外一个好处是它能够利用现有的Alexa目录中频繁出现的术语或短语。例如,如果例句是与体育相关的,并且它确定“凯尔特人”和“湖人”这两个词是可以互换的,那么它就会得出这样的结论:它们也可以与“勇士”、“马刺”、“尼克斯”和其他所有Alexa知道的NBA球队的名字互换。


至于引导重采样工具,它同样使用目录和现有的示例来扩充自然语言理解训练数据。具体来说,它通过替换话语中的元素来生成额外的训练样本,例如:“play Justin Bieber” 和 “can you play a song by Camila Cabello?” 使用所谓的Jaccard指数来评估内容之间的两两相似(Jaccard指数度量两个集合之间的重叠-在这个例子中,是不同类型请求中的内容。)其结果是,该系统为更复杂的话语数据模式生成比例更大的训练集,Slifka指出,这有助于人工智能模型实现更高的性能。


Slifka写道:“Alexa一直在变聪明,AMDS研究人员的这些创新,将有助于确保Alexa在新的语言领域发布时获得尽可能好的体验。”


相关报道:

https://venturebeat.com/2019/10/11/amazon-explains-how-alexa-learns-new-languages/



实习/全职编辑记者招聘ing

加入我们,亲身体验一家专业科技媒体采写的每个细节,在最有前景的行业,和一群遍布全球最优秀的人一起成长。坐标北京·清华东门,在大数据文摘主页对话页回复“招聘”了解详情。简历请直接发送至zz@bigdatadigest.cn


志愿者介绍
后台回复志愿者”加入我们

点「在看」的人都变好看了哦!

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接