Findings EMNLP2021 基于自修正编码器的神经机器翻译 字节火山翻译提出 (finding)

EMNLP2021 ings|字节火山翻译提出:基于自修正编码器的神经机器翻译

随着网络上各种信息的指数级增长,以及跨语言获取信息的需求不断增加,机器翻译逐渐成为网上冲浪?‍♀️时必不可少的工具。网页翻译让我们在 Reddit 等外国论坛里和网友谈笑风生;火山同传等智能字幕翻译系统让我们无需等待字幕组,直接观看“生肉”剧集;聊天翻译让我们建立跨国贸易,结交外国友人。

然而,上面提到的场景往往有一个共同点,那就是被翻译的文本往往是不规范的。无论是聊天时手误导致的错别字,还是视频语音原文识别的错误,都会极大地影响译文质量。因此, 实际应用场景下的机器翻译对翻译模型的鲁棒性有很高的要求。

今天就为大家介绍一篇由字节跳动人工智能实验室火山翻译团队发表在 EMNLP 2021 Findings 的短文 - Secoco: Self-Correcting Encoding for Neural Machine Translation。 这篇论文让翻译模型在学习翻译任务的同时,学习如何对输入的带噪文本进行纠错,从而改善翻译质量。

EMNLP2021 ings|字节火山翻译提出:基于自修正编码器的神经机器翻译



研究背景和动机

神经机器翻译在近些年取得了很大进展,但是大部分工作都是基于干净的数据集。在现实生活中,神经机器翻译系统面对的输入往往都是包含噪声的,这对翻译模型的鲁棒性提出了很大挑战。

之前的翻译鲁棒性工作主要分为三类:

可以看到,大部分的工作都专注于如何生成噪声,很少探究如何进一步使用它们;本文则想要 通过建模从噪声数据到干净数据的修正过程,从而增强模型的鲁棒性。

EMNLP2021 ings|字节火山翻译提出:基于自修正编码器的神经机器翻译
图1 一个简单的修正过程
如图 1 所示,如果想要把一个带噪序列 "abbd" 修正为 "abcd" ,那么可以先删除第三个位置的 "b",再在第三个位置插入 "c"。也就是说,可以将对带噪文本的修正转化为插入和删除的序列,并在编码器端显式地建模这一过程。



自修正模型Secoco

作者针对神经机器翻译提出了具有鲁棒性的 自修正框架Secoco (lf-rrecting Ending)。

EMNLP2021 ings|字节火山翻译提出:基于自修正编码器的神经机器翻译
正如图2左侧所示,Secoco 和普通的翻译模型不同之处在于 Secoco 有两个修正操作的预测模块,这些预测模块基于输入序列的表示生成相应的操作序列。删除预测器 (Deletion Predictor) 根据当前词的表示预测是否要删除,而插入预测器 (Insertion Predictor) 则根据两个连续的词的表示预测中间是否要插入新的词。

虽然这种迭代编辑的过程每一步都需要前面的操作,但是为了简化训练过程, 插入预测器和删除预测器都是相互独立的,并与普通的翻译任务同时进行训练。

一个关键的问题是如何生成这些训练数据?关键点在于 获取从带噪数据转化为干净数据的编辑操作。 作者提供了两种方式。一种是针对有带噪数据和对应干净 reference 数据的情况,一种是没有带噪数据的情况。

,可以使用类似计算最短编辑距离的方法,获取从带噪数据转化为干净数据的最短编辑过程,然后将替换操作转化为删除-插入操作。

,可以使用基于规则的方法生成伪数据。针对不同的场景,可以设计对应的规则,然后从干净的数据中生成带噪数据,最后反向这个过程就可以得到编辑过程。

训练完成后,便可以进行解码。正如图2右侧展示的,Secoco 有两种解码方式。第一种是仅使用编码器-解码器结构直接进行翻译 (Secoco-E2E),另一种则是对输入进行迭代编辑后再进行翻译 (Secoco-Edit)。



性能一览

作者在三个测试集进行了实验,包括一个基于电视剧的中英对话测试集,一个内部的中英语音翻译测试集,以及加入人工噪声的英德WMT14测试集。

EMNLP2021 ings|字节火山翻译提出:基于自修正编码器的神经机器翻译

如表1所示,对话测试集包含主语省略,标点省略,错别字等问题;语音测试集包含口语词,错别字等 ASR 引起的问题;WMT14 则包含由规则构造的随机插入,随机删除,重复等问题。

实验结果如表2所示。除了 Secoco 之外,作者还和3种方法进行了对比,分别是将合成的噪声数据加入原始数据中一起训练 (BASE+synthetic);使用修复模型加上翻译模型的 pipeline 级联结构 (REPAIR);以及多编码器-单解码器的结构 [1] (RECONSTRUCTION)。可以看出,所有的方法相较于基线模型都有所提升。Secoco 在三个测试集上都获得了最好的效果。

EMNLP2021 ings|字节火山翻译提出:基于自修正编码器的神经机器翻译

此外,在这三个测试集中,对话测试集明显包含更多的噪声,Secoco 最多可以带来3个 BLEU 的提升。语音测试集由于是由 ASR 导出的,因此最好的结果也仅有12.4。

EMNLP2021 ings|字节火山翻译提出:基于自修正编码器的神经机器翻译

表格3中给出了一些迭代编辑的具体例子。针对每一句输入,模型对其进行迭代删除和插入操作,直到文本不再发生变化。从例子中可以看到,一次编辑操作可以同时删除或者插入多个词。此外,对于上述的测试集,平均每个句子需要2-3次编辑操作。



总结

针对互联网中非规范输入带来的鲁棒性问题,本文主要介绍了一个具有自我修正能力的神经机器翻译框架 Secoco,该框架通过两个独立的编辑操作预测器建模修正带噪输入的过程。实验表明, Secoco 在多个测试集上都优于基线模型,增强了翻译模型的鲁棒性,并提供了一定的可解释性。

EMNLP2021 ings|字节火山翻译提出:基于自修正编码器的神经机器翻译

版权文章,未经授权禁止转载。详情见 转载须知 。

EMNLP2021 ings|字节火山翻译提出:基于自修正编码器的神经机器翻译

全局中部横幅
小一步

小一步微官网小一步微简介关于我们小一步是一个AI应用与数字化技术普及公益行动。旨在帮助更多的青少年使用和了解数字化工具、AI工具,培养和激发他们在信息化数字化方面的思维能力。小一步,每一步都算数。微简介

I3Json.com

I3JSON在线解析是一款JSON格式化工具,你可以在线验证、编辑和格式化JSON数据,格式化后的JSON数据以树形结构展示,更易于阅读,此外还可以将JSON转换为XML、YAML、CSV格式...

花娃·鲜花转单专业平台

花娃Huawa.com,是国内专业的鲜花转单平台,花店加盟平台,是全国实体鲜花店的网上订单交易中心、鲜花采购批发中心。目前,全国已经有超26w实体鲜花店加盟。花娃为所有从事鲜花销售经营的服务商,提供鲜花订单交易、转单服务。

净化钢质门

江苏言信环境科技有限公司是一家致力于食品,化妆品,实验室,手术室,活动板房等行业洁净环境最新材料和设备研发与应用的高科技股份制公司。

米宝保

米保险,最全最专业的保险咨询服务平台,帮助保险人合理规划保险风险,做好保险方案,选择适合被保人的保险产品,以及洞察保险行业最新新闻动态,让投保人掌握更专业的保险知识。

珠海市晟盛木制品有限公司

珠海市晟盛木制品有限公司是一家包装的企业,是经国家相关部门批准注册的企业。主营木方、卡板、免检卡板、珠海木箱、纸护角,木箱,木托盘,卡板,熏蒸木箱,珠海免检木箱,出口卡板,木业卡板加盟。公司位于中国广东珠海市珠海市新青科技园。珠海市长盛木制品有限公司本着“客户第一,诚信至上”的原则,与多家企业建立了长期的合作关系。

西安乐华城试驾场地

西安乐华城试驾场地,位于泾阳县沣泾大道欢乐世界对面,西安乐华欢乐世界是亚洲超大主题乐园,为国家AAAA级旅游景区,为“西安乐华城·国际欢乐度假区”核心项目之一,也是西咸新区泾河新城重点项目。

冷库维修

苏州凝发制冷设备有限公司地处长三角黄金水岸南岸,风景秀美、经济富裕的昆山,苏州凝发制冷设备有限公司主要经营范围:1.冷库维修,冷库安装,制冷设备维修,冷水机维修,制冷空调耗材,冷水机,冷冻库,冷藏库,移动冷库调试安装,工业空调销售及配件销售)关于冷库及制冷设备的销售,安装,维护我们进行一站式解决,我们有着制冷行业多年的经验,能快速解决企业的制冷问题,欢迎广大新老客户前来选购。

山东明邦膜结构工程有限公司,膜结构车棚,膜结构景观,充电桩车棚

山东明邦膜结构工程有限公司是一家集膜结构设计开发,加工制造,施工安装,维护于一体的技术工程公司,主营,膜结构车棚,膜结构充电桩,景观膜结构,咨询电话,13964720111

273游戏网

273游戏网(www.273game.com)是非常专业的绿色安全下载站,每天都会推荐超多热门安卓游戏和软件下载,还有着精心推荐的热门排行榜,下载渠道也是非常快速稳定的,让所有用户有着最舒适的下载体验,欢迎大家来273游戏网下载资源!

LONNWENN联轴器

LONNWENN联轴器具有结构尺寸小、重量轻、转动惯量小但传递扭矩高的特点。所有表面精加工,使该LONNWENN联轴器运行质量高,工作寿命长。LONNWENN联轴器使传动时的振动得到缓冲,并吸收由动力机的不均匀运转所产生的冲击。

全局底部横幅