+ Word Dropout 34.83
+ SwitchOut 34.82
+ RAML 35.11
+ RAML + Switchout 35.17
+ RAML + WordDrop 35.47
+v:mala2277获取更多论文
0
(BPE;Sennrich等2016c)通过在源语言、加密
源语言和目标语言上联合学习子词来生成字典。我
们根据Ding等(2019年)的建议调整BPE合并的
数量,每个数据集的结果子词词汇表大小在表1中
列出。
0
→srctgts∪t1(src)2(src)total
0
De→En9k6.7k11.8k6.7k6.5k20kEn→De7.3k9.7k
12.7k6.6k6.4k20k
0
Fr→En7k6k10.4k5.2k5.2k16kEn→Fr7.5k6.5k11k
5k5k16k
0
En→Sk5.2k7.1k10k4.6k4.5k16k
0
En→De25k24k36k16k16k60k
0
表1:IWSLT14(上)、IWSLT17、TED和WMT(下)
数据集的近似子词词汇表。1(src)和2(src)分别表示ROT
-1和ROT-2的加密。
0
在所有实验中,我们将损失权重超参数α1,α2设
置为1,β设置为5。第4.1节展示了对β的消融实验
,以证明这个设置的合理性。我们发现对于所有实
验,softmax温度τ=1效果良好;对于较大的数据
集,τ=2可以实现更稳定的训练。评估我们使用BL
EU分数7(Papineni等,2002年)进行评估。按
照之前的工作(Vaswani等,2017年;Nguyen等
,2019年;Xu等,2021年),我们使用multi_bl
eu.perl
8计算标记化的BLEU分数,用于IWSLT14和TED数
据集,此外还对WMT14En-De
9应用复合分割和SacreBLEU
10(Post,2018年)用于IWSLT17数据集。对于
所有实验,我们使用基于自助法重采样(Clark等
,2011年)的显著性检验,使用compare-mt工
具包(Neubig等,2019年)。基线我们的主要基
线是强大且广泛使用的不使用外部数据的数据增强
技术。我们将CipherDAug与基于回译的数据多样
化(Nguyen等,2019年)、词替换技术如Switch
Out(Wang等,2018年)、WordDrop(Sennri
ch等,2016a)、RAML(Norouzi等,2016年)
以及子词规范化技术BPE-Dropout(Provilkov等
,2020年)进行比较。有关更多基线和实现细节
,请参见附录A.1和A.2。
0
7个解码器波束大小为4,长度惩罚为0.6用于WMT,其他实验
为5和1.0。8
mosesdecoder/scripts/generic/multi-bleu.perl9
tensorow/tensor2tensor/utils/get_ende_bleu.sh10
SacreBLEU签名:nrefs:1|case:mixed|
eff:no|tok:13a|smooth:exp|version:2.0.0
0
3.2Naive方法的结果
0
表2显示了我们在IWSLT14De→En
dev集上使用naive方法的结果。仅使用2个加密源
的BLEU分数为35.45,几乎与最佳基线RAML+Swi
tchOut的35.47的性能相匹配。添加ROT-
k(源)→源方向将得分进一步提高到35.85。添加
ROT-
k(源)→源方向始终比纯多源模型产生更好的结
果,但增加键的数量的效果不一致。我们假设更多
的键通常是有益的,但当使用太多键时,模型会饱
和。基于这些观察,我们将后续实验限制为2个键
。通过将naive方法与两个最佳基线相结合,我们
观察到进一步的改进。这强调了基于密文的增强方
法与其他数据增强方法是正交的,并且可以无缝地
结合使用以产生更大的改进。
0
模型De→En
0
Naive多源方程(1)方程(2)2个键35.4535.85
5个键35.6535.9810个键33.7035.4220个键32.95
34.75
0
5个键+RAML+Switchout-36.17
5个键+RAML+WordDrop-36.63
0
CipherDAug-1个键36.21CipherDAug-
2个键37.60
0
表2:在IWSLT14De-En验证集上比较naive方法和CipherDAug的结果。11
0
3.3主要结果
0
我们在表3中呈现了我们的主要结果。使用单个键
相比Transformer模型显著改善,使用2个键进行
增强优于所有基线。表4显示了与引入Transforme
r的架构改进(如MAT;Fan等人,2020年)或需
要大型预训练模型(如BiBERT;Xu等人,2021年
)进行比较的其他方法。
0
11节A.3.3详细介绍了将CipherDAug与数据多样化相结合的补
充实验。