基于最优传输的对比句子学习:RCMD框架优化句子相似度及解释的质量

93 浏览量更新于2023-11-30 收藏 1.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文基于最优传输的对比句子学习Seonghyeon Lee1岁，Dongha Lee2岁，Seongbo Jang1岁，Hwanjo Yu1岁1University of Illinois at Urbana-Champaign（UIUC），Urbana，IL，美国2{sh0416，jang.sb，hwanjoyu}@postech.ac.kr，donghal@illinois.edu摘要最近，微调预训练的语言模型以捕获句子嵌入之间的相似性已经显示了语义文本相似性（STS）任务的最新性能。然而，缺乏一个解释方法的句子相似性，使得它很难解释模型的输出。在这项工作中，我们明确地描述句子距离的加权和的上下文中的令牌距离的基础上的运输问题，然后提出了最佳的基于运输的距离测量，命名为RCMD;它识别和利用语义对齐的令牌对。最后，我们提出了一个对比学习框架CLRCMD，它优化了句子对的RCMD，从而提高了句子相似度及其解释的质量。大量的实验表明，我们的学习框架优于其他基线的STS和可解释的STS基准，这表明它计算有效的句子相似度，也提供解释一致的人类判断。1介绍预测两个句子之间的语义相似性已经在文献中得到了广泛的研究（ Gomaa et al. ， 2013;Agirre et al. ，2015; Ma-jumder et al. ，2016;Cer等人，2017年）。最近的几项研究成功地利用了预先训练的语言模型，如 BERT（Devlin et al. ，2019）通过微调它来捕捉句子相似性（Reimers和Gurevych，2019）。具体来说，它们定义了句子嵌入之间的相似性得分，这是通过聚合上下文化的令牌嵌入（例如，平均池化）或使用特殊令牌（例如，[CLS]），然后优化自然语言推理（NLI）或语义文本相似性（STS）任务的得分（Gao etal. ，2021年）。这项工作是在Scatterlab实习期间完成†通讯作者图1：上下文嵌入空间中的运输问题的说明性示例。平均池句子嵌入（橙色）之间的距离度量无法清楚地捕获语义对齐的标记对（蓝色）的距离。除了句子相似性的质量之外，解释预测的句子相似性对于最终用户更好地理解结果也很重要（Agirre et al. ， 2016; Gilpin等人， 2018;Rogers et al. ，2020）。一般来说，找出跨句子对齐和每个对齐部分的重要性对于分析句子相似性是有用的（Sultan et al. ，2015）。例如，有几次尝试使用显式特征（例如，TF-IDF），以便容易地分析共享术语之间的交互（Salton和Buckley，1988），或者采用复杂的度量（例如，单词移动者的距离），用于通过两个句子中单词对的重要性和相似性来明确描述它（Kusner et al. ，2015）。然而，对于最近利用来自预训练模型的句子嵌入的方法，尚未研究每个部分的跨句子交互如何有助于最终的句子相似性。在这项工作中，我们提出了一种基于最优传输的分析方法来分析利用预训练模型的我们认为句子相似性度量是一个解决方案，arXiv：2202.13196v1 [cs.AI] 2022年2月+v：mala2277获取更多论文运输问题，其目的是将一个句子中的上下文标记的集合运输到另一个句子中。作为问题的副产品，我们得到了一个成本矩阵和一个运输矩阵，它们分别编码了句子中所有标记对的相似性及其对句子相似性的贡献使用这种分析方法，我们指出，现有的方法遭受的rank-1约束的运输矩阵，这最终使模型有效地捕捉到句子相似性的语义对齐的令牌对的相似性。例如，考虑到在上下文化嵌入空间中的传输（图1），平均标记嵌入（或- ange箭头）之间的距离不能清楚地表示语义对齐标记对（蓝色箭头）的距离。为了解决上述问题，提高模型的可解释性，我们提出了一种新的距离度量和一个优化句子之间距离的首先，我们在上下文化的嵌入空间中应用最优运输，并利用放松运输问题的最优解作为我们的距离度量。该句子距离由语义对齐的词项对的距离组成;这使得结果易于解释。此外，我们提出了一个对比学习框架，采用建议的距离微调模型与令牌级监督。它优化了模型，从句子对中学习语义对齐的标记对的相关性，这进一步增强了可解释性。我们广泛地评估我们的方法和validate其句子相似性和解释的有效性。7 STS基准测试的比较支持我们的框架训练的模型预测的句子相似度的优越性。特别是，在2个可解释的STS数据集上的评估表明，与其他基线方法相比，所提出的距离度量发现了与人类判断我们的定性分析表明，我们的模型中的标记对齐及其相似性得分都可以作为最终用户更好地理解句子相似性的有用资源。2相关工作2.1语义文本相似度最近的研究试图利用一个预训练的语言模型，具有各种模型架构和STS任务的训练目标，实现最先进的性能。在模型架构方面，Devlin等人（2019）通过将两个句子的连接文本作为输入，专注于句子之间的交互相关性，而Reimers和Gurevych（2019）基于Siamese网络和Humeau等人改进了可扩展性。（2020年）采用混合方法。随着模型体系结构的不断发展，STS任务也提出了许多高级目标具体来说，Reimers和Gurevych（2019）主要使用NLI数据集的分类目标，Wu等人（2020）采用对比学习来利用大型语料库的自我监督。Yan etal.（2021）;Gao et al.（2021）将NLI数据集等并行语料库纳入其对比学习框架。尽管这些模型有效，但STS任务的上述模型的可解释性尚未得到充分探索（Belinkov和Glass，2019）。一个相关的任务是可解释的STS，其目的是预测两个句子之间的组块对齐（Agirreet al. ，2016）。对于这项任务，基于神经网络提出了各种监督方法（Konopík etal. ，2016; Lopez-Gazpio et al. ，2016年），线性规划（Tehralla和Jat，2016年）和预训练模型（Maji et al. ，2020）。然而，这些方法不能预测句子之间的相似性，因为它们只关注于发现组块对齐。据我们所知，以前没有基于预训练模型的方法考虑到句子相似性和解释。2.2最佳传输最优传输（Monge，1781）已经被广泛应用于自然语言处理的许多应用中（Li et al. ，2020;Xu et al. ，2021），借助于其在两个对象之间找到合理对应的能力（Lee et al. ，2021a，b）。例如，Kusner et al.（2015）采用最优传输来测量两个具有预训练词向量的文档之间的距离Zhao等人（2019）采用最佳传输来评估文本生成，Zhang等人（2020）采用一种利用预训练语言模型的贪婪方法。此外，Swanson et al. （2020）发现+v：mala2277获取更多论文−Σ∈LA：=TM.（2）i，ji，ji=1DD我J我J∈n1和d2，其中每个我ΣJ12通过最佳传输进行文本匹配的基本原理，从而提高模型的可解释性。最优传输的一个众所周知的局限性是寻找最优解是计算密集型的，因此该问题的近似方案已被广泛研究（ Grauman 和 Darrell ，2004;Shirdhonkar和Jacobs，2008）。为了有效地得到解决方案，Cuturi（2013）提供了一个受概率理论启发的正则化器，然后使用Sinkhorn Kusner等人（2015）通过移除其中一个约束来放松问题以获得二次时间解，并且Wu et al. （2018）引入了一种近似最优传输的核方法。3方法我们首先从运输问题的角度分析了现有模型所使用的相似性度量。考虑到上述分析，我们提出了一种新的距离度量和对比句子学习框架，以提高句子相似度模型的可解释性。在等式（2）中，通过最优运输矩阵T和成本矩阵M的逐元素乘法之和来计算距离。在这个意义上，EMD在M中组合单位成本时考虑距离的最优性。也就是说，每个单位成本在被融合到距离时的优先级被编码在运输矩阵中，该运输矩阵用作用于分析距离的有用资源3.1.1示例：平均池化我们将余弦相似度与平均池化表示为一个运输问题，并根据运输矩阵分析了它的性质请注意，这种相似性度量在大多数先前的研究中被广泛采用（Reimers和Gurevych，2019; Wu etal. ，2020; Gao et al. ，2021年）。形式上，对于长度为L的句子，通过将平均池化应用于L个上下文化的令牌嵌入来生成句子嵌入，即，s=1Lxi，其中xi是从预训练模型获得的第i个令牌嵌入使用句子嵌入，句子相似度定义为：3.1距离作为运输问题我们简要地解释了运输问题，SAVGs1Ts2=cos（s，s）=.100万美元如何将总运输成本解释为距离度量。运输问题由三个部分组成：运输前和运输后的状态，以及成本矩阵。总体上这种平均的基于池化的句子相似度可以被转换成距离dAVG=1sAVG ，由如下的标记嵌入描述：两种状态在高维SIM中表示AVGL1L21张×1张×2张x1Tx2尺寸意味着一个特定的位置，i=1j =1 L1L2L 3 L 4 L 5 L 6L 7 L 8 L 8 L9 L 9L 10 L 10 10L 10 L 1010 L 10 10负量成本矩阵MRd1×d2将从位置i到j的单位运输成本编码为Mi，j。在这种情况下，我们搜索运输计划，以最小的成本从d1运输到d2使用上述符号，从等式（1）的角度来看，该距离被解释为特殊运输问题的朴素解，其中成本矩阵和运输矩阵为最优化问题写如下：AVG2019年12月12日星期一Mi，j =x1x2− cos（xi，xj），尽量减少Ti，jMi，j（1）I j1张×1张×2张T∈Rd1×d2T平均值=ij。（三）≥0i，ji、jL1L2s1s2s根据TT→1=d2，T→1=d1，其中运输矩阵Ti，j的每个条目指示从位置i到j转移了多少数量。这个问题的最佳解决方案被称为最佳运输，也被称为推土机距离（EMD）：EMDMi、j成本矩阵的每个条目包括标记嵌入之间的负余弦相似性，以及每个标记对对句子距离的贡献（即，传输矩阵）由令牌嵌入的范数确定。在理论上，运输矩阵的秩被限制为1，这阻碍了标记距离到句子距离的有效整合。在实践中，不可能只Σ12D=1−.丛，即，D+v：mala2277获取更多论文∈MMi、j我 JMMsRCMD1（s1，s2）=maxcos（x1，x2）.M2MM(exp(sRCMD（si，sj）/τ）+exp（sRCMD（si，sj）/τ））0否则，Mj=1+MLL−L11句子中语义对齐的标记对，因为所有可能的标记对都是由它们的范数的乘积来考虑的。从这个分析中，我们指出，平均池为基础的相似性是不够有效的捕捉句子之间的令牌对应。3.2上下文化令牌嵌入的松弛最优传输距离针对现有距离测度的不足，提出了一种基于最优传输的距离测度首先，我们定义了一个运输问题，认为在上下文嵌入空间的语义相关性。给定来自预先训练的语言模型的两个句子的标记嵌入，我们构造使用余弦距离编码标记相似性的成本矩阵MCMDRL1×L2，并将两个句子的状态向量定义为通过下式归一化的一个向量：句子长度d1：=1→1和d2：=1→1。1 2正如第3.1节所讨论的，我们考虑操作-这个问题的最佳解决方案是距离测量，称为上下文化令牌移动器MCMD：=1−cos.x1，x2，Mi、jTRCMD1表示从第一句到第二句的标记级二进制对齐，因此通过对对齐的标记对的所有距离进行平均来计算最终距离。此外，很明显，TRCMD1具有比TAVG高得多的等级，这意味着它可以表达两个句子之间更复杂的标记级语义关系。我们注意到，我们的解决方案提供了更好的可解释性的语义文本相似性相比，平均池的情况下对于等式（3）中的句子距离，TAVG将非零值分配给包括不相关对的所有标记对;这使得难以解释结果。相反，等式（4）中的TRCMD1被设计为针对句子距离显式地涉及跨句子的最相关的标记对，这允许我们容易地解释结果。3.3基于语义对齐标记对的对比句子相似性我们提出了一个对比学习框架 RCMD（CLRCMD），将RCMD到国家的最先进的对比学习框架。为此，我们通过sRCMD1=1−dRCMD1将RCMD转换为相应的相似度：dCMD：=Ti，jMCMD。1Σi，jM然而，在这方面，寻找T 产生巨大的计算量，LJIJi=1函数复杂度为 O （ L3logL ），其中 L=max（L1，L2）（Villani，2008）。出于这个原因，我们放松的优化问题，通过删除第一个约束，TT→1=dJ，类似于K usner等人。（2015年）。在O（L2）中找到了这个松弛的运输问题的最优解运输矩阵的秩大于1。最后，最佳传输矩阵和相应的距离称为松弛CMD（RCMD）推导如下：sRCMD2也以相同的方式计算，并且我们对它们进行平均以考虑两个句子之间的双向语义对齐;这在优化期间提供了不同的梯度信号最后的相似性描述为：sRCMD（s1，s2）：= 1。sRCMD1（s1，s2）+sRCMD2（s1，s2）采用这种相似性度量，训练批次中第i个句子对的对比学习目标定义如下：RCMDi、j.1如果j=argminj′MCMDexp（sRCMD（si，si）/τ）M+T1=L1i，j′-对数对数，dRCMD1：=1μminMCM D。（四）1其中τ是温度参数，B是MLj 我i、j批量大小。（Gao et al. ，2021），CLRCMD使用批处理中的其他句子生成类似地，第二约束T→1=d的消除导致TRCMD2和dRCMD2，其中两个松弛问题的解在行方向上对成本矩阵使用min运算，并且列方式，分别。注意负对。我们认为CLRCMD在以下几个方面增强了句子的相似性和可解释性首先，CLRCMD在训练过程中描述了预训练语义的catas- trophic遗忘。B+v：mala2277获取更多论文−模型STS12公司简介公司简介公司简介公司简介STS-BSICK-RAvgBERT基础-平均值29.1259.9647.2260.6163.7247.2058.2552.30SBERT基地†70.9776.5373.1979.0974.3077.0372.9174.86SBERT基础-流量†69.7877.2774.3582.0177.4679.1276.2176.60SBERT基础-美白†69.6577.5774.6682.2778.3979.5276.9177.00SimCSEcls-BERTbase†75.3084.6780.1985.4080.8284.2580.3981.57SimCSE平均值-BERT基础75.8883.2880.2686.0681.3384.9179.9481.67CLRCMD-BERT基75.2385.0680.9986.2681.5085.2180.4982.11ROBERTabase-avg32.5055.7845.0060.6161.6855.3161.6653.22SRoBERTa碱†71.5472.4970.8078.7473.6977.7774.4674.21SRoBERTA基础-美白†70.4677.0774.4681.6476.4379.4976.6576.60SimCSEcls-RoBERTabase†76.5385.2180.9586.0382.5785.8380.5082.52SimCSE平均值-RoberTa基础75.7585.1080.8585.9583.3385.5579.4182.28CLRCMD-RoberTa基75.6885.7680.9286.5883.4885.8981.0182.76表1：7个STS基准测试的结果。我们测量斯皮尔曼相关性的所有例子（高等人。，2021年）。†表示原始论文中报告的基线结果。微调过程。它的令牌级监督是通过利用在预训练的检查点中编码的文本语义来产生的，因为令牌对根据它们在上下文化嵌入空间中的相似性而在语义上对齐。也就是说，CLRCMD更新参数，以提高句子相似度的质量，同时在预训练的检查点中更少地破坏令牌级语义。此外，CLRCMD直接Distills的相关性的句子对的语义对齐的标记对的相关性。从这个意义上说，我们的语境化嵌入空间有效地捕获了来自训练句子对的标记级语义相关性，这为其句子相似性提供了4实验为了从不同的角度分析我们的方法，我们设计并进行了实验，重点关注以下三个研究问题：• RQ 1CLRCMD是否使用预训练的语言模型有效地测量句子相似性？• RQ2CLRCMD是否提供与人类判断一致的句子相似性解释？• RQ3CLRCMD是否有效地计算其句子相似度用于训练和推理？4.1培训详情我们在以下设置中使用CLRCMD微调预训练模型。按照以往工作（Gao et al. ，2021），我们使用具有硬否定的NLI数据集：SNLI（Bowman et al. ，2015）和MNLI（Williams et al. ，2018）。我们使用一个预先训练的骨干连接一个单一的头，这是相同的（高等人。，2021年）。作为预训练模型的初始检查点，我们采用了huggingface 提供的 bert-base-uncased 和roberta-base（Devlin et al. ， 2019; Liuetal. ，2019）。亚当优化器与初始学习率5e5和线性衰减时间表一起使用。启用Fp16训练，其中单个V100GPU上的最大批处理大小为128，并且softmax温度设置为τ=0。05（Gao et al. ，2021年）。使用4个不同的随机种子进行训练，并使用STSb验证集上的最佳Spearman相关性选择最佳模型，该验证集在训练期间每250步进行评估。4.2语义文本相似度我们评估了CLRCMD优化的相似度模型用于STS任务，以定量测量句子相似度的质量（RQ 1）。我们为七个STS基准中的每一个测量斯皮尔曼相关性，并计算它们的平均值，以比较一般表示句子的能力（Conneau和Kiela，2018）。基线我们选择了利用预训练模型的基线，它们的表现优于其他传统基线。下面我们只列出BERT基的基线名称;RoBERTa基的名称是通过替换BERT基+v：mala2277获取更多论文{1}|}ΣΣ−罗伯特基地。• BERTbase-avg通过平均BERTbase中的标记嵌入生成句子嵌入，而无需微调。它表示检查点的零触发性能。• SBERT基地（Reimers和Gurevych，2019）是一项开创性的工作，模特图片标题BERTbase-平均值82.45 85. 98BERTbase-RCMD83.00 88.25SimCSE平均值-BERT基础 82.98 85.80CLRCMD-BERT基87.25 90.55Roberta基础-平均值61.68 52.01ROBERTa底座-RCMD82.44 88.92句子嵌入的模型它训练一个使用NLI数据集的暹罗网络。• SimCSE cls-BERT 碱基（ Gao et al. ，2021）采用对比学习框架（Chen et al. ，2020）使用SNLI和MNLI数据集。[CLS]的语境化嵌入用作句子嵌入。• SimCSE avg-BERT 碱基（ Gao et al. ，2021）与SimCSE cls-BERTbase相同，除了它对令牌嵌入执行平均池化以获得句子嵌入。结果表1报告了每个数据集的斯皮尔曼相关性及其平均值。对于大多数数据集，CLRCMD显示出较高的相关性SimCSE平均值-RoberTa基础73.66七十七点半CLRCMD-RoberTa基84.93八十八点四五表2：SemEval2016任务2的结果：iSTS。通过基于由c（i）=kis_overlap（ci，tk）表示的块映射应用简单平均池化来对贡献，其中ci是句子中的第i个块，tk是句子中的第k个标记然后，为了获得基于成对块贡献的对齐，我们设计了用于选择置信块对（i，j）的标准，如下所示：1c1（i）c2（j）C=T M，与最先进的基线相比。在特别是，对于STS 14，STS 15，SICK-R数据集，i、j|c2（j）||KL|klk，lk，lCLRCMD-BERT实现了可比较的性能，a（i，j）= I[j = argmax Ci，j′]·I[i = argmaxCi′，j].基j′i′与 SimCSEcls-RoBERTa 库相比， SimCSE cls-RoBERTa 库的主干语言模型使用 10 倍于BERT 库的数据进行预训练。这意味着使用CLRCMD的令牌级监督进行微调可以实现与使用昂贵的预训练检查点一样好的性能。4.3可解释语义文本相似度接下来，我们测量我们的方法在可解释STS（iSTS）任务上的性能标记的训练数据）关于语义对齐的组块对（RQ 2）。我们利用Se-mEval 2016任务2：iSTS中包括的“ 图像 ” 和 “ 标题 ” 数据源（ Agirre et al. ，2016）。我们测量了人类判断（句子之间的黄金语义对齐）和所有标记对对句子相似性的贡献（（1M）和T的元素乘法）之间的一致性。使用我们的相似性模型完成这项任务的一个挑战是将标记对贡献转换为块级对齐。首先，我们将令牌对贡献总结为块使用每种方法得到的对齐组块对，计算对齐F1分数作为评价指标，它表明了人类判断与组块贡献之间2我们考虑了八种不同的配置来研究以下组件的有效性：1）句子相似性，2）对比学习，3）预训练的检查点。结果表2显示了关于上述每个组件的iSTS性能的明显趋势。首先，RCMD的标记对分布比平均池化的标记对分布更符合人类的判断。RCMD甚至在没有微调的情况下也提高了比对F1 分数（ BERT 基 -RCMD 和 RoBERTa 基 -RCMD），这表明RCMD有效地发现了在预训练的检查点内编码的标记级相关性此外，当我们使用CLRCMD微调模型时，对齐F1分数会增加。值得注意的是，CLRCMD-BERT 碱基成功-完全提高了比对F1评分，而1我们使用黄金标准的组块信息来只关注对齐，这是iSTS中的第二子轨道。2我们采用任务组织者提供的评估脚本中实现的对齐F1评分+v：mala2277获取更多论文(a) 阳性，CLRCMD（b）中性，CLRCMD（c）阴性，CLRCMD（d）阳性，SimCSE平均值（e）中性，SimCSE平均值（f）阴性，SimCSE平均值图2：令牌对贡献热图。本实验采用BERT模型进行模型的优化SimCSEavg-BERTbase没有。该结果表明，使用基于语义对齐的标记对（即，由RCMD引起的细粒度监督）进一步增强了模型的可解释性。4.4定性分析我们从运输问题的角度定性分析句子相似性，以证明CLRCMD训练的模型提供了清晰准确的解释（RQ 2）。为此，我们将CLRCMD-BERT 库和SimCSE avg-BERT 库中获得的标记对的贡献可视化，然后阐明它们的句子相似度是如何不同地计算的。从STS 13数据集中随机抽取三个句子对。图2展示了积极、中性和消极句子对的标记对贡献热图。CLRCMD vs. SimCSEavg总体而言，CLRCMD比基线更好地对齐两个句子。具体来说，CLRCMD有效地突出了语义相关的标记对的贡献，并排除了其他贡献（图2）。相反，SimCSEavg未能表示句子相似性的有意义的标记级相关性（下图2的秩-1约束SimCSEavg阻止模型在两个句子之间获得任何合理的对齐，而它只是一次性调整所有可能的标记对的贡献。我们强调，热图中的超级相关性不仅抑制了捕捉句子相似性的能力，而且还使人类难以理解句子相似性是如何计算的。对肯定句、中性句和否定句对的案例研究对于肯定句对（图2左），CLRCMD清楚地匹配所有语义对齐的标记对，包括连接词（{对于中性对（图2中），除了日期之外，两个句子具有相同的词汇结构在这种情况下，CLRCMD 将低贡献分配给关于日和月（{“25”，“august”}-{“19”，“july”}）的令牌对因此，最终用户可以根据他们的贡献以及对齐方式清楚地指出哪个部分在语义上不同。在负对的情况下（图2右侧），两个模型都无法找到任何合理的对齐; CLRCMD降低了大多数标记对的贡献，例如+v：mala2277获取更多论文i、ji、j批量16 32 64 128RCMD密集 7.5 22.2 OOM OOMRCMD稀疏 4.6 6.1 10.6 25.8表3：CLRCMD的GPU内存使用（GB），具有各种批量大小。OOM：内存不足。除了具有相同内容的令牌对（ “ 在骚乱之后”）。也就是说，终端用户还可以基于热图来解释否定对，其中两个句子之间的语义对应不清楚地存在，但是很少有重叠的标记高度有助于句子相似性。4.5资源评价我们测量了CLRCMD-BERT基础的GPU内存使用率和推理时间，以证明CLRCMD可以在单个GPU上执行，并且我们的模型的推理花费的成本与基线（RQ 3）几乎相同。4.5.1GPU内存使用分析RCMD的实现我们实现了RCMD的两种变体，RCMD密集和RCMD稀疏，以研究利用RCMD中的稀疏性的效果。这两种算法都是通过成本矩阵和运输矩阵的元素乘和来计算句子距离。对于一个输入句子对，RCMD密集保持完整的成对标记距离（MCMD），而RCMD稀疏仅保持传输矩阵具有非零值的标记距离（{MCMD|TCMD0}）。请注意，图3：推理512个句子对的耗时（ms）。SimCSEavg和SimCSEcls的结果重叠。4.5.2推理时间分析实验设置我们测量了在单个V100 GPU上预测512个句子对的相似度的时间，同时将序列长度从8增加到128，这是对推理时间影响最大的我们重复这个过程10次，并报告平均值。结果图3显示了推理的平均运行时间。使用RCMD的模型与使用简单平均池相似度的模型的推理时间几乎相同我们强调，STS 13数据集中98%的句子由最多48个标记组成，特别是，在预测句子具有少于48个标记的句子对的情况下，时间差可以忽略不计。这一结果表明，由于并行GPU计算，在序列长度范围内不会发生推理时间的显着尽管RCMD具有二次时间，的运输矩阵中的非零项RCMD最多为2L，这是一个数量级，小于所有条目的数量，L2。结果表3报告了微调过程中对于批量对比学习， GPU 内存需求在批量大小B方面为 O（B2），因为需要计算批量内的所有成对句子相似度。在这种情况下，使用密集矩阵的RCMDdense 将 GPU 内存使用率大幅增加 O（B2L2），因此，批大小不能增长超过32。相比之下，RCMD sparse通过利用RCMD传输矩阵的稀疏性，成功地将批规模扩大到128，最终将空间复杂度降低到O（B2L）。相对于句子长度的复杂性5结论在这项工作中，我们提出了CLRCMD，一个学习框架的可解释的句子相似性模型的基础上最佳运输。首先，我们将每个句子相似性度量看作一个传输问题，指出现有基于池的相似性的不可表达性CLRCMD将最优传输的概念集成到预先训练的语言模型中，通过使用两个句子之间的语义对齐的标记对来定义距离度量，并且基于对比学习来微调具有该距离的模型，以获得更好的可解释性。我们实证表明，CLRCMD准确预测+v：mala2277获取更多论文句子相似性，同时提供与人类判断一致的可解释的对肯对贡献由于相信解释模型行为的能力对于未来的AI模型至关重要，因此我们在整个研究中专注于增强针对STS任务的这一优点确认这项工作得到了韩国政府（MSIT）资助的信息通信技术规划评估研究所（IITP）资助（No.2018-0-00584，（SW starlab）基于下一代机器学习的决策支持系统软件开发）和MSIT 资助的 NRF 资助（韩国，No.2020R1A2B5B03097210））以及韩国政府（MSIT）资助的信息通信技术规划评估研究所（IITP）资助（No.2019-0- 01906，人工智能研究生院计划（POSTECH））的支持。引用Eneko Agirre ， Carmen Banea ， Claire Cardie ，Daniel Cer，Mona Diab，Aitor Gonzalez-Agirre，Weiwei Guo ， Iñigo Lopez-Gazpio ， MontseMaritxavia ， Rada Mihalcea ， German Rigau ，Larraitz Uria，and Janyce Wiebe. 2015. SemEval-2015任务2：语义文本相似性，英语、西班牙语和可解释性试点。第九届语义评估国际研讨会论文集（SemEval 2015），第252-263页，科罗拉多州丹佛市。计算语言学协会。Eneko Agirre、Aitor Gonzalez-Agirre、Iñigo Lopez-Gazpio 、 Montse Maritxavia 、 German Rigau 和Larraitz Uria。2016. SemEval-2016任务2：表间语义文本相似性。在第10届语义评估国际研讨会（SemEval-2016）的论文集中，第512-524页计算语言学协会。尤纳坦·贝林科夫和詹姆斯·格拉斯2019. 神经语言处理中的分析方法：一项调查。Transactions ofthe Association for Computational Linguistics，7：49Samuel R. Bowman ， Gabor Angeli ， ChristopherPotts，and Christopher D.曼宁2015. 一个用于学习自然语言推理的大型注释语料库。在2015年自然语言处理经验方法会议的会议中，第632-642页计算机语言学协会。Daniel Cer 、 Mona Diab 、 Eneko Agirre 、 IñigoLopez-Gazpio 和 Lucia Specia 。 2017. SemEval-2017任务1：语义文本相似性多语言和跨语言集中评估。在第11届语义评估国际研讨会（SemEval-2017）中，第1计算语言学协会。TingChen ， SimonKornblith ， MohammadNorouzi，and Geoffrey Hinton. 2020. 视觉表征对比学习的一个简单框架。第37届国际机器学习会议论文集，机器学习研究论文集第119卷，第1597-1607页。PMLR。亚历克西斯·康诺和杜威·基拉。2018年SentEval：一个通用句子表示的评估工具包。第十一届语言资源与评估国际会议（LREC 2018），宫崎，日本。欧洲语言资源协会（ELRA）。马可·库图里2013. Sinkhorn距离：最佳运输的光速计算。神经信息处理系统进展，第26卷。CurranAssociates，Inc.Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova. 2019. BERT：语言理解的深度双向转换器的预训练。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第4171-4186页，明尼阿波利斯，明尼苏达州。计算语言学协会。高天宇，姚兴城，陈丹琪。2021. Simcse：句子嵌入的简单对比学习。 arXiv 预印本 arXiv ：2104.08821。Leilani H Gilpin，David Bau，Ben Z Yuan，AyeshaBa-jwa ， Michael Specter ， and Lalana Kagal.2018. Ex-plaining Explanations：An Overview ofInterpretability of Machine Learning. 在 2018 年IEEE第五届国际数据科学和高级分析会议上，第80-89页。美国电气与电子工程师协会。Wael H Gomaa，Aly A Fahmy，等.2013年。文本相似度方法综述国际计算机应用杂志， 68（13）：13克里斯汀·格劳曼和特雷弗·达雷尔。2004.快速轮廓匹配使用近似推土机的距离。2004年IEEE计算机协会计算机视觉和模式识别会议论文集，2004年。CVPR 2004年。，第1卷，第1I. 美国电气与电子工程师协会。SamuelHumeau ， KurtShuster ， Marie-AnneLachaux ， andJasonWeston.2020.Poly-encoders：用于快速准确的多句子评分的。在国际学习代表上。+v：mala2277获取更多论文Miloslav Konopík ， Ond Padrej Pražák ， DavidSteinberger，and Tomán Brychcín. 2016. UWB在SemEval-2016任务2：可解释的语义文本相似性与块的分布语义。在第10届语义评估国际研讨会（SemEval-2016）的论文集中，第803-808页计算语言学协会。Matt Kusner ， Yu Sun ， Nicholas Kolkin 和 KilianWeinberger。2015. 从词嵌入到文档距离。在Proceedings of the 32nd International Conferenceon Machine Learning ， vol.37 ofProceedings ofMachine Learning Research ， pages 957-966 ，Lille，France中。PMLR。DonghaLee ， SuKim ， SeonghyeonLee ，Chanyanjun Park，and Hwanjo Yu. 2021年a. 用于图分类的可学习结构语义读出。在2021年IEEE国际数据挖掘会议（ICDM）上，第1180Dongha Lee ， Seonghyeon Lee ， and HwanjoYu.2021b的最后一页。用于时间序列分类的可学习动态时间池。在AAAI，第8288Jianqiao Li ， Chunyuan Li ， Guoyin Wang ， HaoFu，Yuhchen Lin，Liqun Chen，Yizhe Zhang，Chenyang Tao ， Ruiyi Zhang ， Wenlin Wang ，Dinghan Shen，Qian Yang，and Lawrence Carin.2020. 通过学生强制最佳传输改进文本生成。在2020年自然语言处理经验方法会议（EMNLP）的会议记录中，第9144-9156页。计算语言学协会。Yinhan Liu，Myle Ott，Naman Goyal，Jingfei Du，Man-dar Joshi，Danqi Chen，Omer Levy，MikeLewis ， LukeZettlemoyer ， andVeselinStoyanov.2019. Roberta：一个鲁棒优化的bert预训练方法。arXiv预印本arXiv：1907.11692。伊尼戈·洛佩斯·加兹皮奥、埃内科·阿吉雷和蒙特塞·马伊特克斯。2016. iUBC在SemEval-2016任务2：RNN和LSTM用于可解释的STS。第10届语义评估国际研讨会论文集，第771-776页，加利福尼亚州圣地亚哥。计算语言学协会。Subhadeep Maji，Rohan Kumar，Manish Bansal，K

下载后可阅读完整内容，剩余1页未读，立即下载