多语言多模态信息处理研究

127 浏览量更新于2023-11-30 收藏 1.01MB PDF 举报

论文

人员分布

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文基于多语言多模态信息齐凡超1人，吕传成2人，5人，刘志远1人，3人，4人，孟晓军6人，孙茂松1人，3人，4人，郑海涛2人，5人1个部门的Comp. Sci。&技术人员：清华大学人工智能研究院北京国家信息科学技术研究中心2清华大学深圳国际研究生院3清华大学研究所郭强，中国4清华大学国际创新中心，中国5鹏程实验室6华为诺亚{qfc17,lvcc21}@mails.tsinghua.edu.cn摘要在语言学中，义位被定义为语言的最小语义单位。语义模因知识库是通过人工标注词的义位而建立的，它已成功地应用于各种自然语言处理任务中。然而，现有的义素知识库只丈夫词义义素它覆盖了少数语言，阻碍了义素的广泛应用。针对这一问题，提出了基于BabelNet同义词集的义位预测任务，旨在构建一个基于BabelNet的多语种义位知识库。通过对BabelNet同义词集的义位自动预测，同义词集中的多种语言的词可以同时获得义位标注。然而，以往的SPBS方法并没有充分利用BabelNet中丰富的信息.本文利用BabelNet中的多语言同义词、多语言注释和图像，实现了SPBS.我们设计了一个多模态信息融合模型来编码和组合这些信息进行语义预测。实验结果表明，我们的模型比以前的方法（约10 MAP和F1分数）的显着优于。本文的所有代码和数据都可以在https：//github.com/thunlp/MSGI网站。1介绍单词是语言中最小的单位，可以独立存在（O'Grady et al. ，1997），但其含义可进一步分为更小的分量。在语言学中，义位被定义为最小的语义单位（Bloomfield，1926）。一些语言学家认为，任何语言中所有词的意义都可以分解为一组有限的与语言无关的义位，平等贡献[2]通讯作者。电子邮件地址：sms@tsinghua.edu.cn图1：知网中英文单词“husband”的义素标注。为了简洁起见，我们只显示了义位的英文符号，尽管知网中的义位有英文和中文两种符号，例如，家庭|family.它等同于语义基元的概念（ Wierzbicka ，1996）。义素隐含在单词中，因此不能直接用于自然语言处理（NLP）。为了解决这个问题，Dong和Dong（2006）手工定义了大约2000个义素，并用它们标注了超过10万个英汉词汇，并在此基础上建立了一个义素知识库知网。图1给出了知网中义素标注的一个例子。知网是一个专门的词汇知识库。不同于其他词汇知识库，如Word-Net（Miller，1998），它通过词与词之间的关系来解释词的含义，例如，知网采用词内义位提供词的内涵定义这种独特性赋予了知网独特的优势。首先，义位可以很容易地作为语义标签并入神经网络（Qi etal. ，2019; Qinet al. ，2020），显示了知网在知识集成到深度学习中的独特适用性。第二，有限的词可以代表无限词的意义，这一性质赋予了知网处理低数据状态的能力义位可以改善稀有词的嵌入（Niu et al. ，2017年）。因为家庭“已婚男人”配偶人类男性“谨慎使用”节约arXiv：2203.07426v1 [cs.CL] 2022年3月+v：mala2277获取更多论文这些优点，知网已成功地用于各种NLP任务（Qi et al. ，2021b）。知网很有特色，也很有用，但它只覆盖两种语言（英语和中文）。另外，其他语言没有知网那样的义位知识库，这就阻碍了大多数语言的自然语言处理从义位中获益。为每种语言手动构建一个义素知识库是一个显而易见的解决方案。但这是不现实的，因为建设过程将是非常耗时和劳动密集型-它花了几个语言专家超过二十年来建立知网。为了解决这个问题，Qi等人（2020）开创性地提出了基于BabelNet（Navigli和Ponzetto，2012 a）的多语言语义词典构建多语言义素BabelNet的条目是由近500种语言的同义词组成的同义词集，如图二、同义词集中的多语言同义词具有相同的意义，因此应使用相同的义素进行注释。因此，通过标注BabelNet同义词集的义素，可以同时获得多种语言中的词的义素标注。例如，假设我们在图2中的同义词集中标注了四个义素human、family、spouse和male，同义词集中的所有多语言同义词（会同时被这些义位所注解。1此外，Qi等人。（2020）通过手动注释某些同义词集的义位来构建种子数据集，并提出了Ba- belNet同义词集（SPBS）的义位预测任务，旨在自动预测其他未注释同义词集的义位此外，他们提出了两种SPBS方法，利用不同的信息在Ba- belNet同义词集，即同义词相关的维基百科的文章和同义词之间的关系。在本文中，我们认为BabelNet中包含的其他一些信息可以用于SPBS。如图2所示，除了多语言同义词外，每个BabelNet同义词集还包括从不同来源（包括WordNet和Wiktionary）提取的多语言注释。2此外，许多同义词集包含来自维基百科和维基数据的图像（Vrandecicand Krötzsch，2014）。同义词集的多语言同义词、注释和图像传达了同义词集的含义，因此自然有助于预测1如果一个词是多义的，它将被包含在多个BabelNet同义词集中，并具有多个义素集。2https://www.wiktionary.org/多语言同义词和注释丈夫，丈夫妻子的婚姻FRmari，époux，marié婚姻中的男性伴侣ZH罗夫，老公，先军，电男⼥婚姻中对男性的称谓，与妻⼦相对应DEEhemann，Gemahl，GatteMännliche Partner in einer ehelichen Beziehung……图像……图2：BabelNet同义词集，包括多语言同义词和注释以及一些图像。同义词集的义位。因此，我们建议将BabelNet同义词集中的所有信息用于SPBS任务。本文设计了一个多模态信息融合模型MSGI（sememepredictionwithMultilingualSynonyms and Glosses as well as Images），该模型包括多语种文本编码器、图像编码器和多标签分类器。文本编码器基于对多语言同义词和注释进行编码的跨语言预训练语言模型。为了使通用的预训练语言模型适应SPBS任务，我们引入了一个新的预训练任务--屏蔽上下文义位预测，图像编码器学习图像的嵌入，采用基于注意力的多示例学习机制处理多幅图像。在实验中，我们发现我们的MSGI模型大大优于以前的 SPBS方法（约 10 MAP和F1 分数）。我们还对MSGI的义位预测结果进行了一系列定量和定性分析，旨在解释MSGI的有效性。+v：mala2277获取更多论文2相关工作2.1义素知识库知网是知识库中最著名的义素，自发表以来受到了广泛的关注（Dongand Dong，2006）。到目前为止，它已在各种NLP任务中显示出其有效性，如词相似度计算（ Liu 和 Li ，2002），句子分析（Fu et al. ，2013）、词义歧化（Hou et al. ，2020），单词表征学习（Niu et al. ，2017），语言建模（Guet al. ，2018）、关系提取（Li et al. ，2019）、反向词典（Zhang et al. ，2020）、文本对抗和后门攻击（Zang et al. ，2020; Qi等人，2021 c）、文本匹配（Lyu et al. ，2021b），引用推荐（Qi et al. ，2022）等。除了义素知识库的应用外，义素知识库的自动扩充和构建也是研究的一个方向。在这些研究中，大多数研究集中在现有义素知识库的自动扩展上（Xie et al. ，2017 b;Jin 等人，2018;Lyu et al. ，2021a）。他们提出了不同的方法来自动预测知网中未覆盖的英汉词汇的义素，旨在扩展和更新知网。只有少数研究尝试自动构建一个新的语言的义素知识库 Qi等人（2018）提出了跨语言词汇义素预测的任务，旨在基于知网中英语/汉语词的义素标注来预测新语言中的词的义素。然而，它的效率并不高，因为它一次只能处理一种语言此外，它不能进行意义层面的义位预测，因此很难处理多义词。之后，Qi等人（2020）开创性地提出了基于BabelNet的多语言义素知识库的方案，这是一种更有效和经济的方法来构建许多语言的义素它们利用BabelNet 的多语言特性，尝试自动预测BabelNet 所有同义词集的义素，从而使BabelNet中近500种语言的所有单词都能获得义素注释。此外，他们通过对齐单词来构建种子数据集并提出了两种自动预测同义词义位方法。在此基础上，我们利用BabelNet中包含的更多信息来预测BabelNet同义词集的语义，取得了更好的结果。此外，最近的一项工作试图在词典的基础上构建一个se-meme KB（Qi et al. ，2021a）。它不依赖于已有的义素知网的注释或使用知网的义素集。相反，它将词典中受控定义词汇表中的词视为2.2BabelNetBabelNet（Navigli and Ponzetto，2012 a）是一个多语言的百科词典，它融合了许多异构的资源，主要包括Word-Net（Miller，1998），Wikipedia 和 Wikidata （ Vran-decic 'andKrötzsch，2014）。它已被用于多个NLP任务（Navigli et al. ，2021），特别是跨语言或多语言任务，如多语言词义消歧（Navigli和Ponzetto，2012 b），跨语言词汇蕴涵（Vyas和 Carpuat ， 2016 ）和跨语言 AMR 解析（Blloshmi et al. ，2020）。这些研究大多将BabelNet看作一个大型的多语种语义库，利用BabelNet同义词集中的多语种同义词和注释，也有一些研究使用了图像，例如，Calabrese等人（2020）使用BabelNet中的概念和图像学习多模态意义嵌入。由于不同资源之间的多语言映射，BabelNet已成为许多语言资源的中心，例如，Babel-Net是ELEXIS项目3中词典矩阵的核心，旨在将不同的词典资源相互链接。3方法在本节中，我们详细介绍了我们的MSGI模型。在此之前，我们首先介绍了SPBS任务的形式化。然后详细介绍了MSGI算法，最后给出了MSGI算法的训练图3说明了MSGI的框架和培训策略。3.1SPBS任务形式化根据Qi et al.（2020），SPBS忽略了义位的层次结构，将义位视为离散的语义标签。因此，SPBS本质上是一个多标签分类问题，旨在将适当的标签（义位）附加到目标BabelNet同义词集。例如，假设B是所有BabelNet同义词集的集合对于给定的目标同义词集b∈B，SPBS旨在预测其3https://elex.is/+v：mala2277获取更多论文{···}|·||||Σ|j=1|Σ义素集Sb=s1，，s|SB|S，其中表示集合的基数。为此，为每个义素计算预测分数。然后，选择预测得分高于阈值的语义素作为预测结果。形式上，目标同义词集b的预测义位集是Sb={s∈S|P（s）|b）>δ}，（1）其中P（s b）是义位的预测得分s和δ是预测得分阈值。3.2MSGI模型MSGI是一种多模态信息融合模型，由文本编码器、图像编码器和多标签分类器组成。接下来，我们将对这三个部分逐一进行描述。文本编码器文本编码器的目的是对BabelNet同义词集的多语种同义词和注释的语义信息进行编码。我们将所有多语言同义词和注释组合成多语言文本序列，并利用XLM-R（Conneauet al. XLM-R是大型跨语言预训练语言模型，并且使用包括掩蔽语言模型的自监督训练目标在许多语言的大型语料库上预训练（ Devlin et al. ，2019）。由于XLM-R在多个跨语言自然语言处理任务中的流行性和出色的性能，我们选择XLM-R作为本文的基本文本编码器。但我们的方法也可以基于其他跨语言预训练语言模型。我们构造了womanmariage[/s]}，如图3所示。接下来，我们将多语言文本序列馈送到XLM-R中，并获得一系列隐藏状态：h[/s]，···= XLM-R（S）。（二更）我们使用第一个隐藏状态作为同义词集的基于文本的语义表示：bt=h[/s]。图像编码器图像编码器用于捕获BabelNet synset中图像中包含的语义信息以前的研究表明，图像可以帮助学习更好的概念和实体的语义表示（Xie etal. ，2017 a; Calabreseet al. ，2020）。我们相信，图像对SPBS也是我们使用流行的图像分类模型 ResNet（Deng et al. ，2009）作为图像编码器来学习图像嵌入。大多数BabelNet同义词集都有多个图像，我们需要将多个图像的嵌入组合成一个聚合的基于图像的表示。简单地平均所有图像嵌入可能会受到噪声的影响，并且不能突出重要信息。受Xie et al.（2017 a）的启发，我们利用基于注意力的多示例学习机制来构建基于聚合图像的表示。假设BabelNet同义词集b有m个图像，从RestNet获得的第j个图像的嵌入是ej。基于同义词集bt的基于文本的表示，我们计算每个图像的注意力：一个synset，如下所示。对于目标同义词集，exp（bt·ej）（三）我们首先将同一语言中的同义词和注释受Du等人（2020）的启发，我们αj=mk=1 exp（bt.·ek）在同义词和gloss之间放置一个特殊的分隔符标记，特别是一个冒号（：）来区分它们。此外，我们还使用了另一个分隔符标记，即vertical bar（）来分隔同义词。例如，图2中的示例同义词集的英文同义词和注释的连接是{[/s]husband hubby：A woman在获得多种语言的单语文本序列之后，我们将它们连接成最终的多语言文本序列。例如，英语和法语文本序列的连接是S{en ，fr}={[/s] husband|老公：A基于图像的聚合表示是图像嵌入的注意力加权和：bi=mαjej。然而，在实验中，我们发现，BabelNet过于多样化，有些甚至与相应的同义词集完全无关[4]例如，在图2中的示例同义词集中显示的四个图像中，它们在风格和语义描述方面有明显的不同即使有了注意力机制，如果我们考虑所有的图像，模型仍然会很混乱。4这是因为BabelNet中的大多数图像都是从维基百科和维基数据中自动提取的，而无需手动检查。+v：mala2277获取更多论文ΣΣ−ΣΣ∈BSBabelNet同义词集义素预测人类家庭e1α1e2α2α3e3b我ResNet图像滤波器（SPBS）配偶男性h[/s]αmem基于注意力的多示例学习XLM-R（MCSP预培训后）[详细]丈夫|老公：一女人的伙伴在婚姻[详细][详细]mari| 埃普|玛丽埃：帕特奈尔雄激素dans联合国结婚[/s]屏蔽语境义位预测（MCSP预培训）合作朋友人类h[MASK]XLM-R（原始）[详细]丈夫|老公：一女人的[面具]在婚姻[详细][详细]mari| 埃普|玛丽埃：帕特奈尔雄激素dans联合国结婚[/s]知网伙伴图3：MSGI模型的图示。为了简单起见，我们只在多语言文本序列中显示两种语言（英语和法语）的同义词和注释。针对这一问题，我们采取了以下两项措施：（1）消除低质量的信息，训练实例b的丢失是年龄我们采用了一种无监督的离群点检测算法，更具体地说，单类SVML=1logps∈Sb+log（1−ps），（5）s∈/Sb（Schölkopf et al. ，1999年），以检测和过滤出基于图像嵌入的低质量图像;（2）添加高质量图像。由于BabelNet同义词集与Word-Net同义词集相连，因此我们可以从ImageNet中检索更多BabelNet同义词集的图像（Deng et al. ，2009 年），也是基于 WordNet 组织的。ImageNet中的图像是手动注释的，质量更高经过这两种措施，我们得到了一个较好的图像集，然后我们采用基于注意力的多示例学习机制来获得最终的基于图像的表示bi多标记分类器我们将同义词集的基于文本和基于图像的表示连接起来，并将连接向量传递到单层感知器中进行多标签分类：p=σ（W[bt;bi]+μ），（4）其中W是权重矩阵，μ是偏置向量，并且σ是sigmoid函数。所得pR |S|是义位预测得分向量，其第i个元素是第i个义位的预测得分3.3MSGI的培训策略我们可以简单地使用交叉熵损失来训练MSGI，在此期间，文本编码器（XLM-R）被微调，多标签分类器被训练，但图像编码器（ResNet）被冻结。5火车-5我们发现冻结而不是调整ResNet可以获得更高的性能，大概是因为大小多标签分类器多标签分类器…S+v：mala2277获取更多论文其中ps是s的义素预测分数。在这里，我们直接使用原始XLM-R，它是通用的，独立于下游任务。我们认为，它可以通过整合特定的适应SPBS任务。受掩蔽语言模型（Devlin et al. ，2019）和义素合并语言模型（Gu et al. ，2018），我们提出了掩蔽上下文义位预测（MCSP）预训练任务作为XLM-R的适应MCSP预培训MCSP的目标是利用上下文信息预测句子中屏蔽词的义位。《知网》对英汉词语义素的标注为英汉词语注释提供了可行性。我们希望MCSP预训练能使原始XLM-R更熟悉义位，从而在SPBS的后续训练中表现得更好。更具体地说，对于同义词集的多语言文本序列，我们随机地用特殊的[MASK]标记替换其英文和中文注释中的然后，我们将损坏的文本序列馈送到原始XLM-R中，并将[MASK]标记的隐藏状态传递到多标签分类器，如等式（4），其用作单词的义位预测器。词的义素预测研究（谢的训练集，这是在以前的研究结果一致（谢等。，2017 a）。+v：mala2277获取更多论文××等人，2017 a; Jin et al. ，2018），我们忽略了屏蔽词的多义性，将所有义素组合在一起形成一个词的义素集。MCSP的训练损失也是多标记交叉熵损失。在MCSP预训练之后，我们如等式（5）中进行SPBS的训练。4实验在本节中，我们评估我们的MSGI模型的义位4.1实验设置数据集评估是在BabelSe- meme上进行的，BabelSe- meme是基于Qi等人（2020）构建的BabelNet的多语言 se- meme KB的种子数据集。它的训练/验证/测试集有12，369/1，546/1，546个同义词集，这些同义词集由总共2，106个义素手动基线方法我们选择Qi等人提出的两种方法。（2020）作为主要基线：（1）SPBS-SR，其执行基于协同过滤的义位预测（Xie et al. ，2017 b ）使用 NASARI 嵌入（ Camacho-Collados et al. ，2016），一组使用相关维基百科文章训练的同义词集嵌入;（2）SPBS-RR，通过考虑同义词集之间的关系，将SPBS建模为知识图中的关系预测任务;（3）上述两种方法的混合此外，我们有两个原始基线用于Qi等人的比较。（ 2020 ） ; （ 4 ）逻辑回归（LR），直接使用NASARI嵌入进行多标签分类;（5）TransE（Bordes et al. ，2013），其是经典的关系预测模型并且以与SPBS-RR类似的方式适用于SPBS6根据Qi et al.（2020），我们使用平均精度（MAP）和F1得分作为评估指标。语言的选择将BabelNet中的500种语言放在一起考虑是不切实际的。在我们的实验中，我们选择了三种有代表性的语言，即英语、法语和汉语。英文和中文是知网的两种语言法语是一种高资源语言，大多数同义词集都有BabelNet中的法语注释。此外，这三种语言有不同的语言距离：英语接近法语，而汉语远离两者。有些同义词集在法语或汉语中没有注释，我们从多语言文本序列中删除了相应的整个单语言部分。对于文本编码器，我们使用预先训练好的XLM-R基础版本，并借助Transformers库（Wolf etal. ，2020），并且隐藏大小为768。对于图像编码器，我们选择包含152层并提供1000维图像嵌入的ResNet-152，并使用PyTorch实现该模型7.我们将图像嵌入转换为768维，并使用线性层，以便进行注意力计算并与基于文本的表示连接对于来自BabelNet的图像，我们将其调整为256 256。对于来自ImageNet的图像，我们使用ImageNet 21K的处理版本（Ridnik etal. ，2021），其图像的大小调整为224 224.在BabelSememe中，有9，356个同义词集有图像，其中2，538个同义词集有来自BabelNet和ImageNet的图像。一个synset的平均图像数是45。我们在 MCSP 预训练和最终训练中使用Adam（Kingma和Ba，2015）优化器。在验证集上连续调整等式（1）中的预测得分阈值δ，并最终设置为0.42XLM- R和多标签分类器的学习率分别在{1 e-6，5e-6，1 e-5，5e-5，1e-4}和{1 e-4，5e-4，1 e-3，5e-3，1 e-2}，其中粗体是基于验证集性能的最终选择4.2主要结果表1显示了测试集上不同模型的SPBS结果我们有以下意见：(1) MSGI模型实现了一致的和实质性的优于以前的方法（MAP和F1得分均约为10），这证明了BabelNet中的多语言和多模式信息在SPBS任务中的有用性以及MSGI模型的有效性。(2) 在四种PoS类型中，MSGI在名义同义词集上表现最好，这可能是因为名义同义词集在BabelNet中具有最大数量和最丰富的信息（Navigli和Ponzetto，2012 a）。6SPBS-SR和LR需要NASARI嵌入，覆盖名义同义词集。因此，这两种方法在7https://pytorch.org/hub/pytorch_上都有效。只有名义上的同义词vision_resnet/+v：mala2277获取更多论文∼PoS（#synset）名词（10，360）动词（2，240）Adj. （2 419）Adv. （442）全部（15，461）模型地图F1地图F1地图F1地图F1地图F1LR54.4239.81––––––––transE61.0546.7834.7526.7629.1122.9930.0520.6951.7339.73SPBS-SR65.1649.75––––––––SPBS-RR62.5047.9234.7625.2832.6824.5130.8620.0753.3140.53合奏68.8555.3534.7625.2832.6824.5130.8620.0757.6445.61MSGI（我们的）71.8164.3659.7847.0155.6141.0268.5255.2067.2357.68- 同义词67.4059.0735.3124.9936.3326.1848.3337.4557.2548.54- 光泽度66.9056.9954.2241.5453.1139.2068.7655.1462.6752.21- 图片71.4161.5859.7044.2955.8643.1563.8151.6367.1356.62-MCSP70.5861.9957.5543.2752.5740.6168.4952.7965.7056.05表1：不同模型在BabelSememe测试集上的SPBS性能。粗体结果显示与p 0的其他结果相比具有统计学显著性改善<。1，下划线的结果表示无显著差异。(3) 与TransE和SPBS-RR相比，MSGI极大地提高了对非名义同义词集这是因为基线依赖于同义词集之间的关系，而非名词性同义词集具有稀疏关系（Qi et al. ，2020）。相比之下，MSGI利用BabelNet同义词集的内部信息，并且不受关系密度的影响。消融研究我们进行了一系列消融研究，以显示MSGI模型不同部分的有效性(1)- 同义词我们消除了多语言文本序列中的所有同义词和分隔符标记只保留注释（2）-光泽度。我们删除了所有的多语言注释和冒号分隔符标记，只保留同义词和竖线分隔符标记。(3)-形象我们删除了图像编码器，只使用文本编码器和多标签分类器(4)-MCSP。我们跳过MCSP预训练，直接在原始XLM-R上训练MSGI模型结果也示于表1中。我们可以看到，原始MSGI模型的总体结果优于上述四个不完全模型，证明了四个部分的有效性4.3图像编码根据消融研究，图像的益处似乎是微不足道的。我们推测，这是因为许多同义词集（6，105，40%）没有可用的图像，图像编码器只发挥了有限的作用。为了更好地证明图像编码的有效性，我们对9，356个带有图像的同义词集进行了实验，这些同义词集在使用的图像MAP F1无图片69.40 60.44全部BabelNet图片70.25 60.99过滤后的BabelNet图片70.6361.21过滤后的BabelNet + ImageNet图片71.3362.10表2：结合不同图像信息的MSGI模型的SPBS性能。Domly以8：1：1的比例此外，我们研究了这两种措施在图像编码中的有效性在这个子集上过滤BabelNet图像并添加ImageNet图像。表2显示了结果。我们可以看到，图像编码带来的改进得到了更好的展示（接近2 MAP和F1得分）。此外，这两种方法在图像编码中都是有效的，提高了SPBS的性能。4.4多语制的有效性在这一小节中，我们研究了MSGI模型中多语言信息的有效性。我们提取了所有三种语言（英语，法语和中文）中的8，974个同义词和注释，并将它们随机分为训练/验证/测试集，比例为8：1：1。然后，我们用不同语言组合的多语言文本序列训练MSGI。测试集的评价结果如表3所示。我们观察到，考虑更多的语言确实可以带来性能的提高，这证明了多行的有用性+v：mala2277获取更多论文地图F10.80.70.60.50.4表3：MSGI模型在不同语言组合中的SPBS性能。0.3义素频率图5：具有以下义位的同义词集的SPBS结果：0.8不同的频率这六个范围内的同义词组的数目分别为708、164、66、35、21和49。0.70.60.50.40.312 345个6+具有不同数量的义位的同义词集的分数。我们发现同义词集的义位预测性能基本上不受其义位数目的影响。相比之下，根据 Qi et al.（2020），基线方法（SPBS-SR，SPBS-RR和Envelope）在义素太少或太多的同义词集上表现不佳。这些同义词集的义素数图4：不同义素数的同义词集的SPBS结果。这六个范围中的同义词组的数量分别为422、422、287、208、119和88SPBS任务中的质量信息。我们推测可能的原因是不同语言的文本序列从不同的角度提供了语义信息，将它们结合起来可以获得更多的语义信息，从而更好地预测义位。此外，En+Zh和Fr+Zh的效果优于En+Fr，这表明远距离语言的组合可以产生更大的效益，这可能是因为远距离语言的文本序列具有更多不同的语义信息。5分析在本节中，我们对MSGI的SPBS结果进行了一些定量和定性分析。所有的实验都是在BabelSememe的验证集上进行的5.1同义词集义素数的影响我们首先研究同义词集的特征如何影响其义位预测结果。第4.2节研究了PoS的影响。在这里，我们集中在另一个数量特征，即一个同义词集图4显示了平均义位预测MAP和F1结果表明，我们的MSGI模型具有较高的鲁棒性的义素数量。5.2词频效应在本小节中，我们将探讨哪些义位是容易预测的，哪些是难以预测的。我们研究了义位频率的特点，即，训练集中具有目标义素的同义词集的数量，这是义素的唯一定量特征图5示出了结果，其中x轴表示义位频率范围，而y轴表示具有特定频率范围内的义位的同义词集的平均义位预测性能我们发现，频繁的义素更容易预测广泛，这是在以前的工作（齐等。，2020）。5.3定性分析在本节中，我们对MSGI模型的SPBS结果进行了定性分析和案例研究。我们从验证集中随机抽取了50个同义词集，并逐一进行了错误根据它们的义位预测结果，我们可以将这些同义词集分为四类，即（1）好的：MSGI对这些同义词集的MAP/F1得分高于85;（2）少的，MSGI对这些同义词集的义位预测比地面真实值少;（3）多的，MSGI对这些同义词集的义位预测比地面真实值多。地图F1[0，20）[20，40）[40 60）[60 80）[80 100）[100，]MAP/F1MAP/F1语言地图F1En67.2255.80Fr59.8750.87Zh70.8761.13EN+Fr68.0157.48EN+Zh71.9561.53Fr+Zh71.6560.45EN+Fr+Zh72.9863.46+v：mala2277获取更多论文类型Synset示例预测义位地面实况同义词光泽好埃及非洲东北部的一个共和国politics，place，country，PropertyName，非洲politics，place，country，PropertyName，非洲少厌食一种以躯体妄想为特征的心理障碍你虽然很瘦但还是太疾病疾病，厌恶，吃更锅炉一种加压系统，水在其中汽化成蒸汽通过从较高温度源传递的热量状态变化，生产，工业，燃烧，烹饪，预热，工具烧伤，预热，工具类似语义意义的意义的或意义研究的，或与之有关的语言，知识语言、信息表4：根据义素预测结果分类的四种类型的示例同义词集。为了简洁起见，我们只显示一个英语同义词和注释。黑体字的义素是正确预测的义素。（4）相似：MSGI预测了一些与地面真实义位不同但相似的义位。这四种类型的同义词集分别为23个（46%）、10个（20%）、分别为3例（6%）和14例（28%）我们为每种类型选取一个示例同义词集，并在表4中显示其基本信息和义位预测结果。对于同义词“anorexia”，注释没有包含任何关于“disgust at eating”的信息，因此MSGI模型不能预测“disgust”和“eat”这两个对于“boiler”同义词集，注释提供了大量的信息，模型预测的义位比地面真值更多，基本上是可推理的。对于“语义”的同义词集6结论与未来工作在本文中，我们建议利用BabelNet中的多语言和多模态信息，即，多语言同义词，多语言注释和图像，以预测BabelNet同义词集的义位。我们设计的MSGI模型，它实现了绝对优于以往的方法。将来，我们将尝试利用BabelNet中的更多信息，例如，语义关系，以更好地预测义位。我们还将考虑在手动检查后使用我们模型的预测结果扩展BabelSememe。确认本工作得到了国家重点研发计划（No.2020AAA0106502）、清华大学郭强研究所和清华大学国际创新中心的支持。Zheng和Lv得到了国家自然科学基金（批准号：6201101015 ），北京人工智能研究院（BAAI）广东省自然科学基金（格兰特号2021A1515012640）、深圳市基础研究基金（批准号：JCYJ20210324120012033）、清华深圳国际研究生院海外合作研究基金我们也感谢所有匿名评论者的宝贵意见和建议。道德声明在本文中，我们只使用一个数据集，即Ba-belSememe，它是完全免费和公开的。我们所要解决的课题SPBS只涉及自然语言处理的研究，不涉及实际应用，因此不能被普通人误用。为了节省能量，我们使用XLM-R的基础版本，而不是更大的跨语言预训练模型，尽管它们可能会产生更高的性能。在本文的形成中没有使用人口统计学或身份特征。引用RexhinaBlloshmi ， RoccoTripodi 和 RobertoNavigli。2020. 使用迁移学习技术实现跨语言amr解析在会议记录EMNLP，第2487伦纳德·布卢姆菲尔德。1926.语言科学的一套假设。Language，2（3）：153安托万·博德斯，尼古拉斯·卡尼尔，阿尔贝托·加西亚-杜兰，杰森·韦斯顿和奥克萨娜·亚赫年科。2013.为多关系数据建模转换嵌入。NIPS的程序。Agostina Calabrese ， Michele Bevilacqua 和 RobertoNavigli。2020. Evilbert：学习任务不可知的多模态意义嵌入。在诉讼IJ-CAI。JoséCamacho-Collados，MohammadTaherPilehvar，and Roberto Navigli. 2016. Nasari：将外显知识和语料库统计数据集成为多行+v：mala2277获取更多论文概念和实体的正确表示。《经济情报》，卷二四零：36Alexis Conneau 、 Kartikay Khandelwal 、 NamanGoyal、VishravChaudhary、GuillaumeWenzek 、 Francisco Guzmán 、 Edouard Grave 、MyleOtt 、 LukeZettle-moyer 和 VeselinStoyanov 。2020.大规模无监督跨语言表征学习。在ACL的诉讼中。Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，Kai Li，and Li Fei-Fei.2009. Imagenet：一个大规模的地理图像数据库。在CVPR的诉讼中。Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova. 2019. BERT：语言理解的深度双向转换器的预训练。在NAACL-HLT的会议记录中。董振东和董强。 2006. 知网与意义的计算（附光盘）。世界科学。Jiaju Du，Fanchao Qi，Maosong Sun，and ZhiyuanLiu. 2020.基于词典定义和局部语义对应的词汇义位预测。中文信息处理学报，34（5）：1Xianghua Fu，Guo Liu，Yanyan Guo，and ZhiqiangWang. 2013.基于主题建模和知网词典的中文网络社会评论多维度情感分析。Knowledge-BasedSystems，37：186Yihong Gu ， Jun Yan ， Hao Zhu ， Zhiyuan Liu ，Ruobing Xie，Maosong Sun，Fen Lin，and LeyuLin. 2018.基于义素专家稀疏积的语言建模。在EMNLP的会议记录中。侯白汝、齐凡超、臧元、张旭瑞、刘致远、孙茂松。2020.尝试替代：一种基于知网的无监督汉语词义消歧方法。在COLING的诉讼中。Huiming Jin ， Hao Zhu ， Zhiyuan Liu ， RuobingXie ， Maosong Sun ， Fen Lin ， and Leyu Lin.2018.以中文单字为语料进行词汇义位预测。在ACL的诉讼中。Diederik P Kingma和Jimmy Ba。2015. Adam：一种随机优化方法。在ICLR的会议记录中。李自然，丁宁，刘志远，郑海涛，沈颖。2019.基于多粒度信息和外部语言知识的中文关系抽取。在ACL的诉讼中。刘群和李苏健。2002.基于知网的词汇相似度计算。International Journal of ComputationalLinguistics Chinese Language Processing ， 7（2）：59布尔吕、陆辰、开宇。2021年a.用于词模因预测的强化汉字预训练。ACL的发现：EMNLP 2021。布尔吕，陆辰，苏铸，开宇。2

下载后可阅读完整内容，剩余1页未读，立即下载