没有合适的资源?快使用搜索试试~ 我知道了~
arXiv:2204.00665v1 [cs.CL] 1 Apr 20220CipherDAug:基于密文的神经机器翻译数据增强0Nishant Kambhatla Logan Born Anoop SarkarSchool of Computing Science, Simon FraserUniversity 8888 University Drive, Burnaby BC,Canada {nkambhat, loborn, anoop}@sfu.ca0摘要0我们提出了一种基于ROT-k密文的神经机器翻译数据增强技术。ROT-k是一种简单的字母替换密码,将明文中的字母替换为字母表中它之后的第k个字母。我们首先使用不同的k值为源端平行数据生成多个ROT-k密文。然后通过多源训练将这些加密的训练数据与原始平行数据结合起来,以改进神经机器翻译。我们的方法CipherDAug使用了一种共正则化的训练过程,除了原始训练数据外,不需要其他外部数据源,并使用标准Transformer在多个数据集上显著优于强大的数据增强技术。这种技术与现有的数据增强方法很容易结合,并在资源匮乏的情况下产生特别强大的结果。01 引言0人们自然会想知道翻译问题是否可以被视为密码学问题。[...]字母的频率、字母组合的频率[...]等等[...]在很大程度上与所使用的语言无关(Weaver,1949年)0事实上,对于将输入视为原子标识符的系统来说,这些标识符背后的字母是无关紧要的。分布特性是唯一重要的,只要保持这些特性不变,底层编码的变化应该是透明的。鉴于此,像ROT-k这样的双射密码(图1)对于现代自然语言处理技术来说是看不见的:分布特征在这样的密码下是不变的,保证了密文的含义与未加密的文本相同,只要有密钥。本文利用这一事实开发了一种新的数据处理方法。0我们的代码可在https://github.com/protonish/cipherdaug-nmt上找到0PLAIN abcdefghijklmnopqrstuvwxyz ROT-1bcdefghijklmnopqrstuvwxyza ROT-2cdefghijklmnopqrstuvwxyzab ROT-3defghijklmnopqrstuvwxyzabc0SRC: es ist diese pyramide.0ROT-1(SRC): ft jtu ejftf qzsbnjef. ROT-2(SRC): gukuv fkgug rßtcokfg.0TGT: it's that pyramid.0SRC0ROT-2(SRC)0ROT-1(SRC)0词汇多样(不重叠)0句法上相似0语义等价0词汇重叠可能0语义相似0词汇重叠不太可能0语义相似0图1:ROT-k加密。明文SRC被加密生成密文ROT-1(SRC)和ROT-2(SRC),它们与明文具有分布特征,但使用了新的编码方式。0这是一种与以前方法完全无关的增强技术。数据增强是一种简单的正则化技术,用于改善神经机器翻译(NMT)模型的泛化能力。这些模型(Bahdanau等,2015年;Vaswani等,2017年)学习到了强大的表示空间(Raganato和Tiedemann,2018年;Voita等,2019年;Kudugunta等,2019年),可以扩展到大量的语言和海量的数据集(Aharoni等,2019年)。然而,在没有数据增强的情况下,它们的复杂性使它们容易记忆和泛化能力差。NMT的数据增强需要产生新的高质量平行训练数据。这并不容易,因为对序列的轻微修改可能会对句法或语义产生重大影响,并且对源语句的更改通常需要相应地更改其翻译。现有的技术存在各种限制:回译(Sennrich等,2016b;Edunov等,2018;Xia0+v:mala2277获取更多论文(1)where |K| is the number of distinct keys used togenerate ciphertexts.While this yields a multilingual model, this for-mulation does not allow explicit interaction be-tween a plaintext sample and the correspondingciphertexts. To allow such interactions, we designanother model that relies on inherent pivoting be-tween sources and enciphered sources. We achievethis by adding ROT-k(source) → source as a trans-lation direction; following Johnson et al. (2017) weprepend the appropriate target token to all sourcesentences and train to minimize the objective(2)0arXiv:2204.00665v1 [cs.CL] 1 Apr 202202 数据增强的密文0ROT- k 密码(图1)通过用字母表中它后面的第 k个字母替换其输入(明文)的每个字母来产生一个密文。过去的研究(Dou andKnight,2012;Dou etal.,2014)已经明确使用解密技术(Kambhatlaetal.,2018)来改进机器翻译。我们强调,解密本身不是本文的目的:相反,我们仅仅使用密码来重新编码数据,同时保持其含义。这是可能的,因为ROT- k是一个一对一的密码,每个密文符号对应一个唯一的明文符号;这意味着它将保留来自明文的分布特征。这使得ROT- k在密码学上是弱的,但适用于数据增强。具体而言,给定一组 n 个训练样本 D = { ( xi,yi ) } n i =1和一组密钥 K,我们使用算法1生成 | K | n个新样本;当添加到训练集时,总共有 ( | K | + 1)n 个样本。02.1 天真的方法0算法1生成的密文不仅与明文不同,而且彼此之间也具有词汇上的差异。鉴于这一事实,我们可以天真地将每个 D k视为不同的语言,并制定一个多源模型。0算法1 密码增强训练数据0训练数据 D = { xi,yi } n i =10密钥集合 K = { k1,k2,..,km } 过程EN )0for k in K do0� 用 ROT- k 对源语句进行加密0D k ← { ROT- k ( xi ),yi } n i =10� 目标语句保持不变0断言 |D| = |D k |0return {Dk � k ∈ K}0多源模型是在多语言训练环境中训练的(Johnsonet al.,2017)。对于一个明文样本xi,密文样本{ROT − k j ( xi ),...,ROT − k | K |( xi )}和目标序列yi,通过最小化交叉熵来训练多源模型。0Li NLL = -log pΘ ( yi | xi ) -0j log pΘ ( yi | ROT- kj ( xi))0Li NLL = -log p Θ(yi | xi)0-0| | 0j [log p Θ(yi |ROT-kj(xi))0+ log p Θ(xi |ROT-kj(xi))]0我们将(2)称为“naive”模型。0讨论。在这种设置下,解码器必须学习真实目标语言和源语言的分布。这可能导致解码器更快地饱和和其容量的次优使用,现在必须在两种语言之间共享;这是许多对多多语言NMT的臭名昭著特性(Aharoni等,2019年)。02.2 CipherDAug:一种更好的方法0为了更好地利用明文和密文数据之间的等价性,我们从多视图学习(Xu等,2013年)中获得灵感。我们将加密样本重新思考为真实源样本的不同视图,可以利用这些视图进行协同训练(Blum和Mitchell,1998年)。这是因为明文和加密样本具有相同的句子长度、语法和(最重要的是)句子语义。给定一个加密源cipher(xi),我们将明文样本(xi,yi)的损失建模为:0+v:mala2277获取更多论文(3)=(4)etweenplain- and ciphertexts by way of co-regularization.Co-regularization relies on the assumption “thatthe target functions in each view agree on labelsof most examples” (Sindhwani et al., 2005) andconstrains the model to consider only solutionswhich capture this agreement.In cases where there are many output classesand the model predictions strongly favour certainof these classes, (4) may have an outsized influ-ence on model behaviour. As a precautionary mea-sure, we use a softmax temperature τ to flatten themodel predictions, based on a similar techniquein knowledge distillation (Hinton et al., 2015) andmulti-view regularization (Wang et al., 2021). Theflattened prediction for an (x, y) pair is given by0+ α2 Li NLL(p Θ(yi |cipher(xi)))的密码源x熵0Li = α1 Li NLL(p Θ(yi |xi))的锚源x熵0其中原始源语言句子xi在这里被称为锚点,因为它总是与每个加密版本配对。前两个术语是传统的负对数似然,鼓励模型为xi和cipher(xi)生成适当的目标。第三0+ β Li dist(p Θ(yi | xi),p Θ(yi |cipher(xi)))的一致性损失,请参见(4)02 [Di KL(p flat Θ(yi | xi)|| p Θ(yi |cipher(xi)))0Li dist(p Θ(yi | xi),p Θ(yi |cip0+ Di KL(p flat Θ(yi | cipher(xi))|| p Θ(yi |xi))]0p flat Θ(x | y)= exp(zy)/τΣyjexp(zyj)/τ(5)0其中zy是输出标签y的逻辑值。较高的τ值会产生更软、更均匀的输出类别分布。02其他度量,如常规(非对称)KL散度或JS散度也可以在(4)中使用,但我们发现对称KL散度产生最好的结果。0我们将整体训练过程称为CipherDAug,并在算法2中进行了总结。0算法2 CipherDAug训练算法0训练数据D = {xi,yi}ni = 10密钥集合 K = {k1,k2,..,km}随机初始化的NMT模型 Θ0过程M ULTI S OURCE T RAIN(Θ,D,K)0D anchor = D�明文作为锚定数据集0当Θ未收敛时0对于每个D cipher ∈ ENCIPHER(D, K)执行�算法10(cipher (x i), y i) � D cipher (x i, y i) � Danchor�相同的索引 i0�相同的目标 y i0L i NLL ← P ( y i | x i0L i NLL ← P ( y i | cipher ( x i0L i dist ← P ( y i | x i ) || P ( y i | cipher (x i ))0�使用公式(4)0通过最小化 L i 更新 Θ�使用公式(3)03实验和结果03.1实验设置0数据集我们使用广泛研究的IWSLT14 De �En和IWSLT17 Fr �En语言对作为我们的小规模数据集。对于高资源实验,我们评估标准的WMT14 En →De数据集,包含450万个句对。我们还将实验扩展到来自多语言TED数据集(Qi等,2018年)的极低资源对Sk �En,其中包含61000个训练样本,以及大小分别为2271和2245的开发集和测试集。0密文生成和词汇表。我们使用保留空格、数字、特殊字符和标点符号的ROT-k的变体(Kudo和Richardson,2018年)进行文本分词。因此,这些字符在明文和密文中是相同的。对于我们的简单方法,我们使用1到20个密钥{1,2,3,4,5,...,20}对IWSLT14数据集的德语部分进行加密。对于我们的主要实验,我们使用密钥{1}对每个翻译方向的源语言进行加密,对于WMT实验使用密钥{1},对于其他实验使用密钥{1,2}。0我们使用sentencepiece(Kudo和Richardson,2018年)将文本分词为字节对编码03 De � En数据集的训练/开发/测试划分约为170k/7k/7k。Fr �En数据集使用dev2010和tst2015进行236k/890/1210划分。4按照Vaswani等(2017年)的做法,我们在newstest2013上进行验证,在newstest2014上进行测试。5在所有生成的密文中,源字母保持不变,只改变字符的分布。目标语言方面不做任何修改。6加密数据的字典仅使用训练数据集生成,然后应用于训练/开发/测试划分,与BPE的学习和应用方式相同。0+v:mala2277获取更多论文+ Word Dropout34.83+ SwitchOut34.82+ RAML35.11+ RAML + Switchout35.17+ RAML + WordDrop35.47+v:mala2277获取更多论文0(BPE;Sennrich等2016c)通过在源语言、加密源语言和目标语言上联合学习子词来生成字典。我们根据Ding等(2019年)的建议调整BPE合并的数量,每个数据集的结果子词词汇表大小在表1中列出。0→ src tgt s ∪ t 1(src) 2(src) total0De → En 9k 6.7k 11.8k 6.7k 6.5k 20k En → De 7.3k 9.7k12.7k 6.6k 6.4k 20k0Fr → En 7k 6k 10.4k 5.2k 5.2k 16k En → Fr 7.5k 6.5k 11k5k 5k 16k0En → Sk 5.2k 7.1k 10k 4.6k 4.5k 16k0En → De 25k 24k 36k 16k 16k 60k0表1:IWSLT14(上)、IWSLT17、TED和WMT(下)数据集的近似子词词汇表。1(src)和2(src)分别表示ROT-1和ROT-2的加密。0在所有实验中,我们将损失权重超参数α1,α2设置为1,β设置为5。第4.1节展示了对β的消融实验,以证明这个设置的合理性。我们发现对于所有实验,softmax温度τ=1效果良好;对于较大的数据集,τ=2可以实现更稳定的训练。评估我们使用BLEU分数7(Papineni等,2002年)进行评估。按照之前的工作(Vaswani等,2017年;Nguyen等,2019年;Xu等,2021年),我们使用multi_bleu.perl8计算标记化的BLEU分数,用于IWSLT14和TED数据集,此外还对WMT14 En-De9应用复合分割和SacreBLEU10(Post,2018年)用于IWSLT17数据集。对于所有实验,我们使用基于自助法重采样(Clark等,2011年)的显著性检验,使用compare-mt工具包(Neubig等,2019年)。基线我们的主要基线是强大且广泛使用的不使用外部数据的数据增强技术。我们将CipherDAug与基于回译的数据多样化(Nguyen等,2019年)、词替换技术如SwitchOut(Wang等,2018年)、WordDrop(Sennrich等,2016a)、RAML(Norouzi等,2016年)以及子词规范化技术BPE-Dropout(Provilkov等,2020年)进行比较。有关更多基线和实现细节,请参见附录A.1和A.2。07个解码器波束大小为4,长度惩罚为0.6用于WMT,其他实验为5和1.0。8mosesdecoder/scripts/generic/multi-bleu.perl 9tensor�ow/tensor2tensor/utils/get_ende_bleu.sh 10SacreBLEU签名:nrefs:1|case:mixed|eff:no|tok:13a|smooth:exp|version:2.0.003.2 Naive方法的结果0表2显示了我们在IWSLT14 De → Endev集上使用naive方法的结果。仅使用2个加密源的BLEU分数为35.45,几乎与最佳基线RAML+SwitchOut的35.47的性能相匹配。添加ROT-k(源)→源方向将得分进一步提高到35.85。添加ROT-k(源)→源方向始终比纯多源模型产生更好的结果,但增加键的数量的效果不一致。我们假设更多的键通常是有益的,但当使用太多键时,模型会饱和。基于这些观察,我们将后续实验限制为2个键。通过将naive方法与两个最佳基线相结合,我们观察到进一步的改进。这强调了基于密文的增强方法与其他数据增强方法是正交的,并且可以无缝地结合使用以产生更大的改进。0模型De → En0Naive多源方程(1)方程(2)2个键35.45 35.855个键35.65 35.98 10个键33.70 35.42 20个键32.9534.7505个键+RAML+Switchout- 36.175个键+RAML+WordDrop- 36.630CipherDAug - 1个键36.21 CipherDAug -2个键37.600表2:在IWSLT14 De-En验证集上比较naive方法和CipherDAug的结果。1103.3 主要结果0我们在表3中呈现了我们的主要结果。使用单个键相比Transformer模型显著改善,使用2个键进行增强优于所有基线。表4显示了与引入Transformer的架构改进(如MAT;Fan等人,2020年)或需要大型预训练模型(如BiBERT;Xu等人,2021年)进行比较的其他方法。011节A.3.3详细介绍了将CipherDAug与数据多样化相结合的补充实验。src augtgt aug|D|De→EnEn→DeFr→EnEn→FrEn→DeSk-EnEn-SkCipherDAug - 1 key31.19∗23.09∗CipherDAug - 2 keys32.62†24.61†+v:mala2277获取更多论文0Transformer(Vaswani等人,2017年)- - 1x 34.64 28.57 38.18 39.37 27.30WordDropout(Sennrich等人)� � 1x 35.60 29.21 - - 27.5 SwitchOut(Wang等人,2018年)� � 1x 35.90 29.00 38.2039.49 27.6 RAML(Norouzi等人,2016年)� � 1x 35.99 29.07 38.38 39.55 - RAML+WordDropout � � 1x 36.13 28.78 - -0RAML+SwitchOut � � 1x 36.20 29.11 38.85 40.02 27.7 BPE-Dropout(Provilkov等人)� � 1x 35.10 28.63 39.39 40.0227.6 Mixed-Repr. 12(Wu等人,2020年)� � 2x 36.31 29.71 - -0数据多样化(Nguyen等人,2019年)� � 7x 37.00 30.47 39.58 40.67 27.90CipherDAug - 1个键 � � 2x 36.19 � 29.14 � 39.45 � 40.39 � 27.9 ��0CipherDAug - 2个键 � � 3x 37.53 † 30.65 † 40.35 † 41.44 † 27.90表3:IWSLT14 De � En(左),IWSLT17 Fr � En(中)和WMT14 En →De(右)。除了Mixed-Repr.(Wu等人,2020年)我们从文献中报告的结果外,我们复现了所有基线。我们的数字是三次运行的中位数结果。统计显著性由*(p < 0.001)和**(p < 0.05)表示与基线相比,†(p <0.001)表示与1个键相比。有关详细信息,请参见A.1。0在IWSLT14和IWSLT17语言对上,我们的方法相比于任何其他数据增强技术(表3)都能更好地改善标准Transformer。这包括RAML+SwitchOut和数据多样化等强大方法,它们分别报告了高达1.8和1.9个BLEU分数的改进。数据多样化涉及在源数据和目标数据上为正向和反向翻译训练总共7个不同的模型。相比之下,CipherDAug训练了一个单一模型,并在IWSLT14 De →En上提高了2.9个BLEU分数,在较小的数据集上提高了约2.2个BLEU分数。0模型|Θ|De → En0Transformer 44M 34.71 Macaron Net(2020)1倍 35.40BERT Fuse(Zhu等人,2020)1倍(+BERT)36.11MAT(Fan等人,2020)0.9倍 36.22UniDrop(Wu等人,2021b)1倍 36.88R-DROP(Liang等人,2021)1倍 37.25BiBERT(Xu等人,2021)1倍(+BERT)37.500CipherDAug -2 keys(我们的方法)1.2倍 37.530表4:在IWSLT14De-En测试集上使用基于不同方法的非数据增强方法的结果。CipherDAug具有1.2倍的参数,因为由于组合的密码词汇表,嵌入层大小稍大。有关与具有1.2倍参数的Transformer的比较,请参见4.1。0在WMT14 En →De上,我们的方法使用1个密钥相比基线Transformer提高了0.6BLEU,并且明显优于SwitchOut和WordDropout等词替换方法。012Wu等人(2020)引入了一种用于混合子词表示的新模型架构,其中涉及两阶段训练。0低资源设置Sk �En数据集是独特具有挑战性的,因为它只有61k对训练样本。通常将此数据集与相关的高资源语言对(如Cs-En)配对(Neubig和Hu,2018),或者在大规模多语言环境中进行训练(Aharoni等人,2019),使用来自多语言TED数据集(Qi等人,2018)的其他58种语言。Xia等人(2019b)引入了一种通用的数据增强技术,适用于这种多语言环境,并利用了每种语言的超过2M个单语句子进行回译。将CipherDAug应用于此数据集(表5)相对于这些方法取得了显著的改进,在Sk →En上达到了32.62 BLEU,在En →Sk上达到了24.61。01-1(Neubig和Hu;Aharoni等人)24 5.800Sk(61k)始终与Cs(103k)配对 LRL+HRL 28.3021.34 + SDE(Wang等人;Gao等人)28.77 22.40 +Aug(包括Mono 2M)(Xia等人)30.00- +Aug+Pivot(同上)30.22- +Aug+Pivot+WordSub(同上)32.07-0大规模多语言-59种语言一对多(Aharoni等人)26.78-多对一(同上)-24.52多对多(同上)29.54 21.830表5:在低资源TED(Qi等人,2018)Sk-En对上的结果。我们的模型仅在Sk-En上进行训练,不需要来自相关高资源语言(HRL)对的额外平行数据。0相反,CipherDAug只使用了一个端到端训练的普通Transformer。|src∪tgt||vocab|DembEmbΘTrainΘBLEUTransformer-25612k12k2563M37M34.40Transformer-51212k12k5126.1M44M34.64Transformer-25620k20k2565.1M42M34.19Transformer-51220k20k51210.1M52M34.39CipherDAug-1key11.8k16k2564.1M40M36.25CipherDAug-1key11.8k16k5128.2M47M36.19CipherDAug-2keys11.8k20k2565M42M36.90CipherDAug-2keys11.8k20k51210.1M52M37.5332343638200004000060000800001000003334353637380.00.51.01.52.002570表6:在IWSLT14 De →En上使用基线Transformer和CipherDAug的结果,使用不同的词汇表大小和嵌入维度。除了嵌入层外,所有设置中的网络配置都完全相同,参数为31M。列“Train Θ”表示可训练参数的总数(约31M + 2.EmbΘ)。Transformer-512表示我们实验中使用的基线Transformer模型。0对于相对较大的WMT14数据集(4.5M),尽管基线Transformer相比之前有了显著改进,但当添加了约9M个加密句子(2个密钥)时,基础模型(68M参数)接近饱和状态。升级到TransformerBig(218M)可能是可行的,但与其他模型进行公平比较将是不公平的。当模型被优化为单独翻译每个源句子(4.5M明文和9M加密)(单源)以及通过共同正则化损失一起翻译(多源)时,模型容量在更大的数据集中成为瓶颈。结果表明,我们提出的方法在小型和低资源数据环境中效果最好。04分析04.1消融分析0密钥数量图2(左)显示了添加不同数量的密文数据的效果。我们使用仅2个不同的密钥获得最佳性能。使用更多或更少的密钥会降低性能,尽管这两种情况仍然优于基线。正如第3.2节所述,当使用太多密钥时,模型可能会饱和。0一致性损失图2(右)显示了对一致性损失的消融分析。我们发现CipherDAug对给定给这个项的权重β非常敏感:将其增加或减少到我们的默认设置β=5会导致近2个BLEU的性能下降。尽管这个项带来了性能增益,但同样清楚的是,一致性损失不能完全解释CipherDAug相对于基线的改进:在β =0的朴素设置中,CipherDAug仍然比基线表现出约1个BLEU的优势。0更新次数0BLEU01个密钥 5个密钥 2个密钥 基线0KL散度 β值0相对墙时间0图2:对不同密钥数量(左)和一致性损失权重β(右)进行消融分析。相对于我们的首选设置β =5和2个密码键,测量相对于β =5的运行时间(运行时间)达到收敛/提前停止。虚线(右)显示基线BLEU。0联合学习与分别学习BPE词汇表从表7中可以看出,如果我们为每种语言或IWSLT14 De →En的密文语言分别学习BPE词汇表,对BLEU没有显著影响。这与Neubig和Hu(2018年)在多语言NMT背景下的研究结果一致。0| s ∪ t | rot-1(s) rot-2(s) | V | BLEU0分别 12k 6.5k 6.5k 21.2k 37.65 联合 11.8k 6.7k 6.5k20k 37.530表7:CipherDAug-2keys联合学习与分别学习BPE词汇表的比较。'分别'设置使用在双语文本和两个密文上分别学习的BPE的并集。BLEU分数的差异没有统计学意义。0请注意,最好联合学习BPE,因为这样可以限制总词汇量。当分别学习时,我们无法控制组合词汇量的大小,这可能导致比预期更大或更小的词汇量(因此,嵌入参数的数量也不同)。0+v:mala2277获取更多论文1001021041001021041001021040解开嵌入层增加参数的影响CipherDAug利用原始平行双语文本和源文本的密文副本的联合词汇表。这必然增加了嵌入层中的参数数量,尽管网络的其余部分保持不变。为了了解这些额外参数的影响,我们将CipherDAug与具有不同词汇表和嵌入大小的基线Transformer模型进行比较。不同设置的结果如表6所示。130当我们将最佳模型(CipherDAug with 2keys)的嵌入维度从512降低到256时,我们观察到最终得分只有微小变化,即BLEU下降了0.6。然而,当只有1个密码键时,我们的模型显示出轻微(统计上不显著)的+0.06BLEU改进。这些结果表明,CipherDAug中的少量额外嵌入参数对模型性能没有过大影响,但我们强调降低嵌入层的维度会降低其表达能力,因此不是完全公平的比较。04.2幻觉0模型的注意机制可能不反映模型的真实内部推理(Jain和Wallace,2019;Moradi等,2019,2021)。为了更好地分析NMT模型,Lee等人(2018年)引入了“幻觉”的概念。当模型的输入发生微小扰动时,导致输出发生剧烈变化,意味着模型实际上并不关注这个输入。使用Raunak等人(2021年)的算法2,表8显示了基线模型和CipherDAug模型在IWSLT14De-En测试集上的幻觉数量。我们使用最常见的50个子词作为扰动。相对于基线,CipherDAug的幻觉减少了40%,这表明它对扰动更具韧性,对输入内容更加关注。04.3 罕见子词的影响0我们认为CipherDAug之所以有效,部分原因是它减少了罕见词的影响。平均而言,在ROT-k加密的0请注意,在表6中,原始源和目标的BPE词汇表在基线(12k)和CipherDAug(11.8k)之间保持大致相同,尽管我们的模型的最终词汇表大小因加密源的添加而有所变化。0模型产生的幻觉0Transformer 230CipherDAug -2 keys (我们的) 140表8:在基线和CipherDAug模型中导致幻觉的不同句子数量。0在明文句子中,句子比最罕见的子词频繁得多。这在以下示例中显而易见:0hier ist es nötig, das, was wir unter politicallycorrectness verstehen, immer wieder anzubringen. (6)0图3显示了该句子及其ROT-k加密变体中每个子词的频率。在明文中,我们观察到一系列罕见的子词ically,_correct和ness来自英语借词。然而,在加密后,这些子词被更常见的子词jd,bmm,_d等替换。结果是加密的句子中罕见的子词更少;这使它们能够与其他句子共享更多信息,并允许更常见的加密标记来影响模型对不太常见的明文标记的编码。0频率0de0频率0ROT-1(de)0句子中的子词位置0频率0按频率排序的子词0ROT-2(de)0图3:(6)及其ROT-k加密变体中子词的频率。加密将罕见的子词替换为更常见的子词。0我们再次强调,这个趋势在整个语料库中都是成立的,并且突出了一种允许模型看到每个输入的许多不同分割的增强方案的价值。这不是CipherDAug改善性能的唯一机制:我们发现在每个频率桶中都有改进,而不仅仅是那些罕见的标记(图4)。04.4 多视图学习0在第2.2节中,我们认为(4)中的一致性损失在多视图学习设置中充当了一个共正则化项。多视图学习在不同视图捕捉到不同信息时效果最好。在CipherDAug中,通过以下方式实现:0+v:mala2277获取更多论文target word frequencyf-measure0.20.30.40.50.60.7<11234[5,10)[10,100)[100,1k)>=1kTransformerMoving AvgCipherDAugMoving Avgsentence lengthsentence-BLEU152025303540<10[10,20)[20,30)[30,40)[40,50)[50,60)>=60TransformerCipherDAug6543216543210.5250.5500.5750.6006543216543216543210.4500.4750图4:CipherDAug对所有频率的标记和所有长度的句子都有改进。 (a)模型输出和参考标记之间的F-度量,按参考标记的频率分桶。 (b) 目标句子长度分桶的句子BLEU。0允许加密输入接收与明文输入不同的分割。作为不同视图捕捉到不同信息的证据,我们注意到即使在使用共正则化训练后,模型对输入编码的选择仍然敏感,如图6所示,模型可能根据输入是明文还是密文而产生三个不同的输出之一。如果所有的输入视图捕捉到相同的信息,我们不应该期望有这样的变化,尤其是在使用显式共正则化项进行训练后。04.5 典型相关分析0为了进一步分析CipherDAug,我们转向典型相关分析(CCA;Hardoon等人,2004;Raghu等人,2017),它找到一个线性变换,以最大化两个高维数据集中的值之间的相关性。如Raghu等人(2017)所详细介绍的,它对于测量来自不同网络的激活之间的相关性很有用。对于每个IWSLT14De-En测试句子,我们保存基线和CipherDAug模型每个层的激活。对于CipherDAug模型,我们保存明文和加密输入的激活。对于每对层,我们计算这些层的激活之间的投影加权14CCA(PWCCA)。如果这个值很高(相对于随机基线),这意味着存在一个线性变换,使得这些层的激活线性相关,暗示这些层捕捉到相似的信息。图5绘制了基线和CipherDAug模型的编码器状态之间以及CipherDAug编码器状态之间的PWCCA。014参见Raghu等2017年关于包括PWCCA在内的CCA变体的解释。我们选择PWCCA是因为它被发现对噪声最鲁棒,并且不需要明确调整要分析的维数的数量。0CipherDAug层0ROT-1(de)-en0CipherDug层0de-en0CipherDAug层0ROT-2(de)-en0de-en0(a)0基线层0CipherDug层0de-en0基线层0ROT-1(de)-en0基线层0ROT-2(de)-en0(b)0图5:不同层之间编码器状态的PWCCA。所有相关性都超过随机基线(0.27)的值。(a)密钥对CipherDAug编码器状态的影响。(b)CipherDAug和基线之间的比较,显示了模型和输入编码之间不同的信息分布。0不同的输入编码。很明显,CipherDAug学习到了相似但不完全相同的明文和密文输入的表示:在de→en设置中的一层状态通常可以预测ROT-1(de)→ en和ROT-2(de)→en设置中的同一层状态。然而,我们强调,明文和密文的表示并不相同,与基线模型进行比较可以看出。在这里,一个模型中的某些层与另一个模型的每一层都显示出适度的相关性;其他层与另一个模型的不同层显示出强相关性。这意味着,虽然两个模型提取了一些相同的信息,但它们在编码器中的深度不同。此外,与明文输入相比,CipherDAug从加密输入中提取的状态呈现出完全不同的相关性模式。这意味着CipherDAug不仅学习到了与基线不同的信息,而且这些差异在明文和密文中是不同的。这些结果加强了第4.4节关于明文和密文捕捉到不同信息的论述。05相关工作0数据增强(Sennrich等,2016b年)可以广泛分为基于反向翻译的方法和扰动或改变输入的方法(Wang等,2018年)。反向翻译(Sennrich等,2016b年)可以说是NMT的
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功