语义无关的BERT语句嵌入的生成与应用

90 浏览量更新于2023-11-30 收藏 783KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文与语义无关的BERT语句嵌入方晓宇冯晓，尹非杨g，丹尼尔策尔，纳维恩阿里阿扎甘，魏旺谷歌人工智能山景城{fangxiaoyu，yinfeiy，cer，navari，wangwe}@google.com摘要我们采用多语言BERT（Devlin et al. ，2019）为109种语言生成语言无关的句子嵌入。虽然英语句子嵌入是通过微调预训练的 BERT模型获得的（ Reimers 和Gurevych，2019），但这些模型尚未应用于多语言句子嵌入。我们的模型将掩码语言模型（MLM）和翻译语言模型（TLM）（Con-neau和Lample，2019）预训练与使用双向双编码器的翻译排名任务相结合（Yang et al. ，2019 a）。由此产生的多语言句子嵌入将112种语言的平均双文本检索准确率提高到83.7%，远高于 Tatoeba 上现有技术的 65.5%（Artetxe和Schwenk，2019 b）。我们的句子嵌入也建立了新的国家的最先进的结果BUCC和联合国双文本检索。1介绍Mask language modeling（ MLM ） pretraining（MLM）预训练，随后进行任务特定的微调，已被证明是许多NLP任务的强大工具（Devlinet al. ，2019）。然而，预先训练的MLMs本质上不会产生良好的并行级嵌入。相反，从MLMs生成句子嵌入必须通过微调来学习 SentenceBERT （ Reimers 和 Gurevych ，2019）对基于自然语言推理（NLI）的单语言BERT双编码器进行了微调由此产生的句子嵌入在句子嵌入质量的测量上实现了优异的性能，例如语义文本相似性（ STS ）基准（Ceret al. ，2017）和基于句子嵌入的trans-fer学习（Conneau and Kiela，2018）。平等贡献。图1：双编码器模型与基于BERT的编码模块.虽然多语言句子嵌入模型包含类似的双编码器，但没有一个探索MLM预训练。相反，编码器直接在翻译对上训练（ Artetxe 和Schwenk，2019 b; Guo et al. ，2018; Yang etal. ，2019 a），或翻译对结合单语输入-响应预测（奇丹巴拉姆等。，2019; Yang et al. ，2019 b）。直接在翻译对上训练的多语言句子嵌入需要大量的并行训练数据。此外，诸如在多种语言上训练的多语言单句编码器（m-USE）的模型通常比仅针对单个语言对的类似模型表现更差（Yang et al. ，2019 a）。巧合的是，多语言BERT已经证明了令人惊讶的良好的跨语言性能，而无需对par-par翻译数据进行训练（K et al. ，2020）。受这些因素的启发，我们提出了一种训练多语言句子级嵌入的新方法，将现有的最先进的多语言句子嵌入方法与MLM和翻译语言模型（TLM）（Conneau和Lample，2019）预训练编码器相结合。我们采用了双编码器框架，其中包括成对的编码器喂养的组合，国家的功能。这些模型非常适合于损失添加附加边距分享Transformer参数Transformer嵌入网络嵌入网络初始化初始化源文本目标文本预训练BERTarXiv：2007.01852v1 [cs.CL] 2020年7+v：mala2277获取更多论文图2：所有支持语言的单语和双语处理数据的总大小。注意en的数据比其他语言多得多，我们在这里限制了2B的最大值。学习有效的跨语言句子嵌入使用添加剂边际softmax损失（杨等. ，2019 a）。源语句和目标语句使用共享的基于 BERT 的编码器（Devlin et al. ，2019）。最后一层[CLS]表示作为每个输入的句子嵌入。在BERT编码器产生的句子嵌入上使用余弦对源句子和目标句子之间的相似性进行评分。模型架构如图1所示。我们的多语言模型在大型双文本挖掘任务（如联合国语料库（Ziemski et al. ，2016）和BUCC（Zweigenbaum et al. ，2018年），分别包含数千万和数十万翻译候选人的池。这两个任务都覆盖了fr、de、es、ru和zh，这些语言都有大量的训练数据可用。我们在Tatoeba重新评估任务（Artetxe和Schwenk，2019 b）上评估了该模型，该任务涵盖了112种语言，但只有100到1000个翻译候选者。与LASER（Artetxe和Schwenk，2019 b）相比，新模型在具有大量训练数据的语言上实现了匹配性能，但在具有有限数据的语言上表现得更好，提高了平均准确率。我相信这是通过对109种语言进行大规模培训来实现的，这些语言涵盖了包含未见过语言的语系。本文的新贡献是：（1）预训练和微调策略的组合，以提高双编码器翻译排名模型的性能，以达到最先进的双文本挖掘性能;（2）一个单一的大规模多语言模型，跨越109种语言，并显示跨语言迁移，甚至零镜头的情况。(3)全面分析和消除研究，以了解各种数据质量、数据数量、预训练和负采样策略的影响。我们的模型可在https://tfhub.dev/google/LaBSE上获得2语料库我们有两种类型的数据：单语数据和双语翻译对。单语数据我们从CommonCrawl1和Wikipedia2收集单语数据。我们使用 2019-35 版本的CommonCrawl和Raffel等人的算法。（2019）删除嘈杂的文本。此外，我们删除短行10个字符和那些>5000个字符.<3维基数据是使用WikiEx- tractor4从05-21-2020转储中提取的。内部工具将文本拆分为句子。使用句子过滤句子整个112个语言的评价，以83.7%，我们还观察到该模型在30多种语言的Tatoeba任务上表现出色，我们没有单语或双语训练数据。我们-1https://commoncrawl.org/2https://www.wikipedia.org/3长的行通常是JavaScript或尝试在搜索引擎优化。4https://github.com/attardi/wikiextractor+v：mala2277获取更多论文LLLL −i=1我我n=1，n/=i我4评价质量分类器质量分类器使用来自网页的主要内容的句子作为肯定词，来自其他领域的文本作为否定词来训练。过滤后，我们得到17B单语句子，约50%的未经过滤的版本。双语翻译对翻译语料库是使用类似于Uszkoreit等人（2010）中描述的方法的双文本挖掘系统从网页中构建的。提取的句子对通过预训练的对比数据选择（CDS）评分模型（Wang et al. ，2018）。人工注释者从收获的句子对的一个小子集中手动评估句子对选择数据选择评分模型阈值，使得来自手动评估的80%的再训练对被评定为良好。我们进一步将每种语言的最大句子对限制为1亿，以平衡数据分布。许多语言的句子仍然远远少于1亿个。最终的语料库包含6B个翻译对。5每种语文的分布情况见图2。3模型双编码器包含成对的编码器，提供评分功能，如图1所示。源语句和目标语句分别编码。句子嵌入是从编码器[CLS]令牌的最后隐藏状态中提取的。3.1具有附加裕度Softmax的双向双编码器杨等。（2019a），我们训练双向双编码器，具有带批量负采样的附加裕度当φ（xi，yi）被边际m折现时。注意，这是不对称的，取决于softmax是在源还是目标上。对于双向排名，最终损失函数将源到目标j和目标到源J的损失相加：L<$=L+LJ（2）3.2交叉加速器负采样用批量阴性样本训练的跨语言嵌入模型受益于大的训练批量（Guo et al. ，2018）。像BERT这样的资源密集型模型，由于内存限制，只限于小批量虽然数据并行允许我们通过使用多个加速器来增加有效的批处理大小，但单个核心上的批处理大小不会改变多个加速器上的批处理。但是，这会导致每个加速器上的本地批大小较小。例如，如果每个核的批大小为128，则每个示例仅接收127个否定示例。我们引入了交叉加速器负采样。6如图3所示，在该策略下，来自所有核的句子被广播为分配给其他核的示例的这使我们能够充分认识到分布式培训的好处。3.3预训练和参数共享我们使用 Transformer 编码器（ Vaswani etal. ，2017年）。编码器是用掩蔽语言模型（MLM）（Devlin et al. ，2019）和翻译语言模型（TLM）Conneauand Lample（2019） 7（Conneau and Lample，2019）分别对单语数据和双语翻译对进行训练。对于 L 层Transformer编码器，我们使用3阶段渐进堆叠算法（Gong et al. ，2019年），其中我们首先学习L层模型，然后L4 21Neφ（xi，yi）−mNeφ（x，y）−m+<$Neφ（x，yn）最后是所有L层。在早期阶段学习的模型参数被复制到后续阶段的模型中。x和y的嵌入空间相似性为：由 φ （ x ， y ）给出。根据先前的工作（Yanget al. ，2019a），我们设置φ（x，y）= cosine（x，y）。损失试图在同一批中的所有N-1个备选方案中对yi（xi的真实转换）进行排序，即使[5]虽然我们有一个大型的双语数据集，但在后面的部分中，即使有2亿对跨所有语言的实验也足够了。4.1配置在本节中，我们将描述双编码器模型的训练细节。我们使用的词块虽然我们的实验使用TPU加速器，但同样的策略也可以应用于在GPU上训练的模型。7与Conneau和Lample（2019）不同，我们没有提供语言提示来鼓励多语言。（一）=+v：mala2277获取更多论文000000000 0000000000000000000000000000000000000000000000000000000000000000 0000000000000000000000000000000000000000000000000000000目标句子批处理目标句子批处理核心i-1核心i+1......批内负采样交叉加速器负采样图3：双编码器框架中的负采样示例。点积评分函数使利用矩阵乘法在同一批中计算成对得分是有效的。网格中的值表示地面实况标签，所有正标签位于对角网格中。[左]：单个核中的批内负采样;[右]：使用n个TPU核和每个核8个批量大小的同步多加速器负采样以及来自其他核的示例都被视为负。模型（Sennrich et al. ，2016）来标记化文本输入。使用Tensorflow Text8中的wordpiece词汇生成库从所有数据源构建新的用例词汇表。词汇生成工具的语言平滑指数设置为0.3，因为每种语言的数据大小分布不平衡。最终的词汇量是501，153。编码器架构遵循BERT Base模型，该模型使用具有 12 个头和 768 个隐藏大小的 12 层Transformer编码器参数为所有语言共享。我们将最后一层的[CLS]标记表示作为句子嵌入，最终的嵌入是l2归一化的。预训练的BERT模型在Cloud TPU V3 pod的512核切片上使用批量大小8192进行训练最大序列长度设置为512，每个序列20%的令牌（或最多80个令牌）被MLM和TLM预测屏蔽。我们使用所有单语和双语数据为每个阶段训练400k，800k，1.8M步骤。LaBSE模型是在Cloud TPU V3 pod的32核切片上训练的，源和目标的全局批量大小为2048，最大序列长度为64。根据Yang等人（2019 a），在所有实验中均使用0.3的边界值。最终模型使用AdamW优化器进行50 K步（小于1个epoch）训练，初始学习速率为1 e-5和线性权重衰减。请注意，这些模型到2010年只看到2亿个平行对。8https://github.com/tensorflow/text/blob/master/tools/wordpiece_vocab/generate_vocab.py5万步训练在训练过程中，句子嵌入（归一化后）乘以 Chidambaram 等人的缩放因子。（2018），我们将缩放因子设置为10。我们观察到，比例因子对于训练具有归一化嵌入的双编码器模型是重要的所有参数都是在一个保持发展集上调整的。4.2BUCCBUCC挖掘任务是一项关于从两个单语语料库中提取平行句子的共享任务，其中一个子集被假设为平行，自2016年以来一直可用。我们使用了2018年共享任务的数据，该任务由四种语言对的语料库组成：fr-en，de-en，ru-en和zh-en。对于每个语言对，共享任务为每个语言提供单语语料库这些对是地面真相。任务是从单语语料库中构建一个翻译对构造的列表与地面实况进行比较，并根据F1度量进行评估。有关此任务的更多详细信息，请参见（Zweigenbaum et al. ，2018）。原始BUCC任务具有列车测试分割，测试地面真实值是盲态的。最近的跨语言检索工作在训练集上使用最佳F1进行评估，而不使用任何域内数据（ Yanget al. ， 2019 b; Hu etal. ，2020）。我们按照设置使用LaBSE的原始余弦相似性得分来报告训练集上的最佳检索性能J我01酷睿i01234567100000000 0200300400500600700000001100000010000001000000100000010000001J我01酷睿i01234567100000000 0200300400500600700000001100000010000001000000100000010000001源语句批处理酷睿i源语句批处理酷睿i+v：mala2277获取更多论文落后模型代恩鲁恩zh-enPRFPRFPRFPRF向前Artetxe和Schwenk（2019a）82.174.278.078.975.177.0------Yang等人（2019年a）86.785.686.190.388.089.284.691.187.786.790.988.8LaBSE86.690.988.792.392.792.586.191.988.988.289.788.9Artetxe和Schwenk（2019a）77.272.774.779.073.175.9------Yang等人（2019年a）83.885.584.689.387.788.583.690.586.988.787.588.1LaBSE87.188.487.891.392.792.086.390.788.487.890.389.0表1：BUCC训练集得分的[P]精度、[R]ecall和[F]-得分与余弦相似性得分。阈值被选择用于训练集上的最佳F分数根据BUCC任务的命名（Zweigenbaum et al. ，2018），我们把EN作为目标，其他语言作为源在向前搜索。反之亦然。嵌入9.表1显示了拟议模型与Artetxe和Schwenk（2019 a）和Yang等人的两个基线相比的BUCC性能。（2019a）中所描述的。在原有工作的基础上，我们同时进行了前向搜索和后向搜索。其中向前搜索将en作为目标，而在向前搜索中将另一种语言作为源，而向后则相反。LaBSE在所有语言中的性能都优于以前的型号值得注意的是，先前的现有技术（ Yang et al. ， 2019a ）是双语模型，而LaBSE涵盖109种语言。4.3联合国然后，我们评估联合国平行语料库（Ziemskiet al. ，2016年），由86,000个双语文档对组成，分为五种语言对：从en到fr，es，ru，ar和zh。文档对接近完美对齐，总共可以从文档对中解析出1130万个对齐的句子对。如Guoet al. （2018），如果候选集的大小很小，那么强模型可以很容易地达到完美的性能，这个数据集很好地区分了那些具有大候选集的模型对于每一种非英语语言，我们都要遍历英语句子，以便从另一种语言的整个句子池中找到翻译句子。表2显示了实验模型的精密度@1（P@1）。我们将所提出的模型与Yang等人的当前最先进的双语模型进行了比较。（2019 a）和具有Transformer架构的公共多语言通用句子编码器（m- USE）模型。9注意，可以应用第二阶段评分模型来提高性能，例如基于边缘的评分器（Artetxe和Schwenk，2019 a），BERT微调分类器（Yang et al. ，2019 a）。我们把它作为一个独立的工作。10重复数据删除后约为950万模型Langs埃内en-fr恩鲁EN-ZHYang等人（2019年a）289.086.189.287.9m-USETrans.1686.183.388.978.8LaBSE10991.188.390.887.7表2：P@1在UN平行句子提取任务上的表现。LaBSE再次显示了4种语言中3种语言的最新性能， en-es 、 en-fr 、 en-ru 的 P@1 分别为91.1、88.3、90.8。LaBSE的zh-en达到87.7，仅比最好的双语模型低0.2，比之前的最好的多语言模型高出近9分4.4Tatoeba为了更好地评估大规模语言的性能，我们进一步评估了Artetxe和Schwenk（2019 b）引入的Tatoeba语料库的拟议模型。该数据集由112种语言的1,000个英语对齐的句子对组成，任务是使用余弦相似距离为另一种语言的每个句子找到最近的邻居。计算每种语言的准确度和平均准确度我们对几组语言的性能进行评估，以进行公平比较，并确定更广泛的趋势。前14个语言组是从m-USE覆盖的语言中选择的。我们还评估了第二语言组与36种语言的XTREME基准（胡等。，2020）。第三个82个语言组是从LASER训练数据中选出的，应该包括一些尾语言。最后，我们计算所有语言的平均准确率。表3显示了LaBSE与m-USE和LASER相比，不同语言组的宏观平均准确度。正如预期的那样，所有这些模型在涵盖大多数头部语言的14种语言组+v：mala2277获取更多论文模型m-USETrans.LASERLABSE14 Langs36 Langs82 Langs所有93.995.395.3–95.0–87.3–83.7表 3 ： Tatoeba 数据集的准确度（ % ）。 [14Langs] ： USE 支持的语言。 [36 Langs] ：由XTREME选择的语言。[82 Langs]：LASER具有训练数据的语言。所有语言：Taoteba支持的所有语言。平均精度>93%。LASER和LaBSE略好于m-USE 。通过包括更多的语言， LASER 和LaBSE的平均准确度变得更低。LaBSE开始超过LASER，包括更多的语言，+10.6%，在所有36种语言、82种语言和112种语言上，平均准确率分别提高了+11.4%和+18.2%。5分析加法边际加法边际（Yanget al. ，2019 a）仍然是学习有效跨语言嵌入空间的一个非常重要的部分。大规模UN检索任务的改进相对于基本模型非常大，即使具有非常小的裕度值，如表4的第5-7行所示。具有附加裕度值0的模型在所有4种UN语言上表现不佳，具有60或70 s P@1。对于小的裕度值0.1，对于所有语言，模型显著改善为80+margin = 0.2和margin = 0.3的模型（最终模型）具有相似的性能，margin=0.2的模型在Tatoeba上的性能稍好，margin=0.3的模型在UN和BUCC上的我们选择0.3的界限，因为我们观察到评估，从初步实验中较大规模的任务更稳定前期训练。我们首先在没有BERT预训练的情况下实验模型。结果列于表4的第1-4行。该模型使用故障训练步骤进行训练，例如：50K，与预训练模型相比表现不佳我们进一步用更长的步长训练模型，包括100K，200K，直到500K。性能不断提高，接近预训练50万步左右的模型整体性能仍然稍差，保持训练该模型将看到1B个训练500K的示例步骤，而50K模型只能看到200M示例11。这表明预训练也导致对并行训练数据的需求显著减少与多语言BERT的比较我们从多语言BERT模型12中计算出针对初始化的预训练方法。该模型在UN和BUCC任务中的头语言上表现很好，所有UN和BUCC语言的P@1和F1分别为80和最佳。然而，它在Tatoeba任务上的表现显着落后，在36种语言集上的平均准确率为-2.8，在所有语言集上的平均准确率为-2.8。由于多种原因，我们的预训练方法在尾语言上优于多语言BERT。我们用了一个更大的词汇，500k对30K，这已被证明可以提高多语言性能（Conneau et al. ，2019）。除了MLM之外，我们还包括TLM，因为这已被证明可以改善跨语言迁移Conneau和Lample（2019）。最后，我们在普通爬行上进行预训练，它比多语言BERT训练的维基数据大得多，尽管噪音更大数据选择的重要性LaBSE模型使用由预训练的对比数据选择（CDS）模型选择的数据进行训练。为了了解数据选择如何影响模型性能，我们还使用原始Web抓取的翻译对训练模型，而无需CDS选择，这些翻译对仍然足以训练出相当好的NMT模型。令人惊讶的是，即使从100个候选池中检索，该模型结果表明，双编码器模型训练对数据质量敏感.请注意，CDS选择不仅基于质量，还基于与训练数据的域匹配（Wang et al. ，2018），使得所选择的数据可能落入CDS训练数据来自的窄域中专用的翻译质量模型可以进一步改善数据选择阶段或增加覆盖率，我们将其作为未来的工作。[11]从Paracrawl，TED58等公共资源中获得许多语言的2亿个并行示例相对容易12多箱_L-12_H-768_A-12+v：mala2277获取更多论文模型控制训练变量步骤esUN（en→ruxx）zh frBUCC（xx→en）Taoeba（xx→en）fr de ru zh 36 Langs全部LaBSE无预训练50K83.675.675.870.4––––––LaBSE无预训练100K86.582.282.879.9––––––LaBSE无预训练200K89.185.386.883.0––––––LaBSE无预训练500K90.087.389.885.288.392.088.685.894.882.4LaBSE保证金= 050K73.762.264.479.2––––––LaBSEmargin = 0. 150K88.082.786.883.9––––––LaBSEmargin = 0. 250K90.287.889.787.287.991.988.688.295.283.9LaBSEinit. mBERT50K89.385.789.387.286.890.587.387.492.278.4LaBSE完整模型50K91.188.390.887.788.792.788.988.995.083.7表4：消融研究中不同型号配置的UN（P@1）、BUCC（前向搜索的F评分）和Taoteba（平均准确度）性能。完整的模型从定制的BERT模型初始化，使用裕度值0.3，并训练50K步。5.1无训练数据的语言零触发转换图4列出了那些我们没有任何训练数据的语言的Tatoeba准确性。总共有30+这样的语言13。对于大多数语言来说，性能出奇地好，平均准确率约为60%。近三分之一的人的准确率大于75%，只有7人的准确率低于25%。这种跨语言的积极语言迁移只有在以下情况下才有可能：图4：这些语言的Tatoeba准确性，没有任何训练数据。平均（AVG）准确率为64.1%，列在第一位。LaBSE的多语言特性的语言Tatoeba未知Avg. Token.Avg. 发送.表5列出了这些语文中排名最高和最低的5种语文。我们通过考察所有语言的未知标记率、字符中的平均标记长度和标记中的平均句子长度来分析词汇的效果（Arivazhagan etal. ，2019）。所有语言的未知标记率都低性能的语言平均而言倾向于具有较短的单词长度和较长的序列长度，这表明词汇覆盖率低于标准。一个更好的词汇可能会使这些语言受益。负采样这里我们测量交叉加速器负采样的影响。我们还简要探讨了使用硬否定而不是随机否定。结果见表6。Guo等人（2018）在双编码器框架中探索了用于学习跨语言嵌入的硬否定挖掘，这项技术已经被13语言映射是手动完成的，有些语言与具有训练数据的语言接近，但可能根据ISO-639标准和其他信息进行不同处理。精度代币%长度长度NB98.903.478.29TL97.303.818.57ia96.303.5811.65PES9603.119.20他93.6 0 3.04 8.63KZJ13.503.3012.66Pam13.503.1710.82DTP12.603.2611.14ber11.30.012.8212.99Kab6.80.012.7412.72表5：Tatoeba在没有训练数据的语言中的顶部和底部性能。用作后续工作的默认设置（Chi-Dambaram等人，，2018; Yang et al. ，2019 a）。我们在Guo等人的基础上，对西班牙语的硬负挖掘进行了实验。（2018）在此LaBSE设置。使用深度平均网络的较弱的双编码器被训练以从en-es的双语池中挖掘否定。与交叉加速器否定类似，挖掘的否定也被附加到每个示例中。由于内存的限制，我们只附加3个挖掘的硬否定在es语言为每个源句。由于示例数量增加了4倍，+v：mala2277获取更多论文模型基础模型这是平均值。91.188.390.887.7 八十无交叉加速器采样90.387.991.186.6 89.0w/ es硬底片90.487.189.987.2 八十表6：采用不同阴性采样策略的UN上的P@1。根据LaBSE的句子对的相似性被计算为该对的句子嵌入之间的arccos距离。14除了使用直接从各种模型的句子嵌入中转换的相似性得分外，我们还包括SentenceBERT模型SentenceBERT（Reimers和Gurevych，2019）m-USE（Yang et al. ，2019b）使用（Cer et al. ，2018）ConvEmbed（Yang et al. ，2018）InferSent（Conneau etal. ，2017）LaBSESTS基准调优句子BERT-STS（Reimers和Gurevych，2019）ConvEmbed（Yang et al. ，2018年）dev测试-79.283.7 八十二点五80.2 七十六点六81.4 七十八点二80.1 七十五点六74.3 七十二点八-86.183.5 八十点八当它针对STS任务进行微调时，以及当训练额外的仿射变换以使嵌入适合 STS 时，ConvEmbed 。与直接测量句子嵌入质量不同，向STS调优通知了评估语义相似性所需的信息在模型中以任何方式捕获的程度我们观察到，LaBSE在表7：语义文本相似性（STS）基准（Cer et al. ，2017年）的表现，由皮尔逊在硬否定实验中，我们还将每句话的批大小从128个减少到32个。为了得到公平的比较，我们为实验训练了20万步，而不是其他实验中的5万步对于ES以外的语言，训练数据与其他实验相同，但批量大小一起减少到32。去除交叉加速器采样平均会稍微损害模型性能。我们也没有看到硬底片有助于LaBSE模型的性能。es的P@1为90.4，而完整模型为91.1。由于批量大小的影响，其他主要语言的性能也会下降。5.2语义相似度语义文本相似性（STS）基准（Cer et al. ，2017）测量模型复制成对英语句子相似性的细粒度分级人类判断的能力。根据模型的皮尔逊相关性r对模型进行评分，黄金标签的范围从0（不相关的含义）到5（语义等同），中间值捕获仔细定义的含义重叠程度。STS被广泛用于通过评估句子嵌入对之间的相似性与人类对句子意义相似性的感知的一致程度来表7报告了LaBSE与现有句子嵌入模型在STS基准上的性能根据先前的工作，语义两两英文语义相似度优于其他句子嵌入模型。这一结果与其在跨语言双文本检索上的优异性能形成了对比。跨语言m-USE模型显著地实现了最佳的整体性能，甚至在SentenceBERT未针对STS任务进行微调时优于SentenceBERT。我们怀疑在翻译对上训练LaBSE会使模型偏向于擅长检测意义对等，但不能区分细粒度的意义重叠程度。m-USE训练类似于LaBSE，但也包含关于输入-响应对预测的附加单语训练数据。预测输入-响应对先前已经被示出为产生如由语义相似性任务（例如， ConvEm- 床（ Yang et al. ，2018））。6基于CommonCrawl的并行文本挖掘我们采用LaBSE模型从CommonCrawl（一个大规模的单语语料库）中挖掘并行文本，并在挖掘出的数据上训练NMT模型。我们使用两种语言对进行实验：英语-汉语（en-zh）和英语-德语（en-de）。使用在第2节中解释的经处理的CommonCrawl语料库对zh、de和enre-boundary进行处理后，总共有1.3B、0.7B、7.7B个句子。对于每一个语言对，我们把一种语言的句子作为源，另一种语言的句子作为目标。双编码器模型可以很容易地对源和目标传感器进行编码14在先前的工作中，m-USE、USE和ConvEmbed使用ar-ccos距离来测量嵌入空间语义相似性，而InferSent和SentenceBERT使用余弦相似性。+v：mala2277获取更多论文≥分别为tenses。利用这一特性，我们首先将所有目标句子预编码到目标数据库中，然后使用近似最近邻（ANN）搜索（Vanderkam etal. ，2013），其相对于目标数据库大小是次线性的。考虑到en数据几乎是其他语言的10倍，我们使用zh和de语句来检索索引的en语句，以提高效率。在检索步骤之后，每个源句子可以与其最近的邻居配对。为了过滤那些彼此绝对不翻译的对，我们保留相似度得分为0.6的对，仅保留15。有261 M和104 M这样的句子的en-zh和en-de，分别为16。对于en-de或en-zh，我们使用Transformer-Big训练模型（Vaswani et al. ，2017）以如下方式：首先，我们在挖掘的数据上训练模型，就像在TPU上批量大小为10k的120k步骤一样。然后，我们用数据选择方法选择前20%（Wang et al. ，2018年），并训练一个-其他80 k步。然后我们评估最终的模型。我们执行第二步，因为在检查之后，我们注意到有比平均整体挖掘数据质量更好的句子对，因此可以选择使系统更好。表8中的结果显示了挖掘数据的强度通过与以前的 end-de 结果（ Eddom et al. ， 2018年），我们看到挖掘的数据产生的性能与WMT 17 en-de并行数据相差3 BLEU。通过与以前的en-zh结果（Sen-nrich et al. ，2017），我们看到该模型与WMT 17 NMT模型相差0.6BLEU（Sennrich et al. ，2017），其在WMT参数数据上训练。这表明我们通过调整方法和挖掘更多数据的空间。15通过手动检查数据选择阈值0.6，大于或等于该阈值的对可能是彼此的平移或部分平移。注意，这些对仍然可能是有噪声的，我们依靠下面描述的数据选择步骤来选择干净的句子对用于训练NMT模型。16由于时间和资源的限制，每个语言对的源句子中只有大约40个句子被处理以挖掘潜在的翻译。语言恩之恩德数数数BleuXX发送恩森特Mined Pairs （en→ xx）560M 7.7B330M 7.7B261M104M35.727.2表8：CommonCrawl的源/目标句子数量和挖掘的并行文本数量。分别在wmtnews 17和wmt-news 14上评估zh-en和de-en的BLEU评分7结论本文提出了一个支持109种语言的BERT语句嵌入模型。我们介绍了一种简单的方法，采用预先训练的BERT模型的双重编码器模型，以训练跨语言的嵌入空间有效和高效。该模型实现了国家的最先进的性能在各种双文本检索/挖掘任务相比，以前的国家的最先进的语言覆盖率更少。我们还表明，即使在LaBSE没有任何训练数据的语言上，只要文本可以合理地分割成单词标记，模型也表现得很好大量的实验表明，加性余量softmax是训练模型的关键因素，并行数据质量很重要，但所需的并行数据量可以通过掩蔽语言模型预训练大大减少。预训练的模型在tfhub上发布，以支持这一方向的进一步研究和可能的下游应用。致谢我们感谢来自Descartes、Trans- late和其他Google群组的队友们的反馈和建议。特别感谢Sidharth Mudgal和Jax Law在数据处理方面的帮助;以及Jialu Liu、Tianqi Liu、Chen Chen和Anosh Raj在BERT预训练方面的帮助。引用Naveen Arivazhagan，Ankur Bapna，Orhan Fi-rat ， Dmitry Lepikhin ， Melvin Johnson ，Maxim Krikun，Mia Xu Chen，Yuan Cao，George Fos- ter，Colin Cherry，et al. 2019.大规模多语言神经机器翻译：发现和挑战。arXiv预印本arXiv：1907.05019。米克尔 Artetxe 和 Holger 施温克2019年a。+v：mala2277获取更多论文基于边缘的多文句嵌入并行语料挖掘。在计算语言学协会第57届年会的会议记录中，第3197- 3203页，意大利佛罗伦萨。计算机语言学协会。Mikel Artetxe和Holger Schwenk 2019年b. 大规模的多语言句子嵌入，实现零次跨语言传输及其他功能。事务处理关联计算Linguistics，7：597-610.Daniel Cer、Mona Diab、Eneko Agirre、IñigoLopez-Gazpio 和 LuciaSpecia 。 2017.SemEval-2017任务1：语义文本相似性多语言和跨语言重点评估。在第11届语义评估国际研讨会（SemEval-2017）的会议记录中，第1-14页，加拿大温哥华。计算语言学协会。Daniel Cer 、 Yinfei Yang 、 Sheng-yi Kong 、Nan Hua 、 Nicole Limtiaco 、 Rhomni St.John 、 Noah Constant 、 Mario Guajardo-Cespedes 、 Steve Yuan 、 Chris Tar 、 BrianStrope和Ray Kurzweil。2018. 通用英语句子编码器。2018年自然语言处理经验方法会议论文集：系统演示，第169计算语言学协会。Muthu Chidambaram ， Yinfei Yang ， DanielCer， Steve Yuan， Yunhsuan Sung ，BrianStrope，and Ray Kurzweil.2019. 通过多任务双编码器模型学习跨语言句子表示。第四届NLP表示学习研讨会论文集，第250-259页，意大利佛罗伦萨。计算语言学协会。Muthuraman Chidambaram ， Yinfei Yang ，Daniel Cer ， Steve Yuan ， Yun-HsuanSung ， Brian Strope ， and Ray Kurzweil.2018.通过多任务双编码器模型。CoR

下载后可阅读完整内容，剩余1页未读，立即下载