学界 | 迁移学习 + BPE,改进低资源语言的神经翻译结果
选自arXiv
作者:Toan Q Nguyen、David Chiang
机器之心编译
参与:李亚洲、路雪
在本论文中,作者结合迁移学习与 BPE 方法,使用低资源的相关语言的平行数据改进同样低资源语言的神经机器翻译结果。
论文:Transfer Learning across Low-Resource, Related Languages for Neural Machine Translation
链接:https://arxiv.org/abs/1708.09803
摘要:我们提出了一种简单的方法,对一种低资源的语言对的神经机器翻译结果,使用同样低资源的相关语言的平行数据帮助改进。这种方法主要基于 Zoph 等人提出的迁移方法,但他们的方法忽略了源词汇重复,我们的方法对此进行了开拓。首先,我们使用 BPE(字节对编码)的方式分离单词来增加单词重复。然后,在第一种语言对上训练模型,将其参数(包括源词嵌入)迁移到另一个模型,再在第二种语言对上继续训练。我们的实验证明,虽然 BPE 方法和迁移学习单独用的时候表现不一致,但一起用时能提高 1.8 个 BLEU 值。
表 1:土耳其语与乌兹别克语中拥有同样词根的单词示例
表 2:训练数据中的 token 与句子的数量
图 1:不同设置下的 Tokenized dev BLEU 得分。注意:baseline = 只训练子模型;transfer = 先训练父模型,再训练子模型;+freeze = 在子模型中 freeze 目标词嵌入
表 4:在父模型中出现的源词嵌入占子模型源词嵌入的比例
本文为机器之心编译,转载请联系本公众号获得授权。
✄------------------------------------------------
加入机器之心(全职记者/实习生):hr@jiqizhixin.com
投稿或寻求报道:content@jiqizhixin.com
广告&商务合作:bd@jiqizhixin.com
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

随时掌握互联网精彩
- 1 提高海上维权执法能力 4956715
- 2 甘肃酒泉发生5.0级地震 4996287
- 3 北方多地网友拍到极光 4801165
- 4 链博会拓展中外合作新机遇 4706256
- 5 亿万富豪找回丢失25年儿子 4629904
- 6 广西小伙用竹子造自行车已售上万台 4596203
- 7 中国气象局发布大地磁暴预警 4413145
- 8 刘国强:大额存单余额23.5万亿元 4364530
- 9 福州辟谣医院小楼倒塌呈45度 4256991
- 10 富豪与被拐儿子团聚:明天带他提车 4196109