基于语境化知识嵌入的词义归纳方法

19 浏览量更新于2023-12-04 收藏 753KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

CoKE：基于语境化知识嵌入的词义归纳桑贾娜·兰普拉萨德Mya Systemssanjana. hiremya.com詹姆斯·马多克斯Mya Systemsjames. hiremya.com摘要词嵌入可以捕获词汇语义信息，但仍然存在缺陷，无法为多义词的不同含义分配唯一的他们也没有包括来自精心策划的语义词典和字典的信息。以前的方法，获得上逻辑接地词义表示学习嵌入，是优越的理解上下文相似性，但优于几个词的相关性任务的单个原型词。在这项工作中，我们介绍了一种新的方法，可以诱导多义任何预定义的嵌入空间，通过联合接地上下文的意义表示从意义标记语料库和词嵌入到知识库中学习。这种方法的优点是，它允许整合本体信息，同时也很容易诱导多义到预定义的嵌入空间，而不需要重新训练。我们在几个单词相似性和相关性任务以及两个外部任务上评估了我们的向量，发现它始终优于当前最先进的技术。介绍单词的分布式表示（Mikolov et al. 2013年b）已被证明是成功的，在解决各种缺点的符号表示，把词作为原子单位的意义。通过对相似的单词进行分组并捕捉类比和词汇关系，它们是一些下游NLP应用程序的热门选择。虽然这些嵌入捕捉有意义的词汇关系，但它们也有自己的缺点。例如，完全依赖自然语言语料库会放大数据集中固有的现有词汇偏见。词汇偏差是由训练语料库中没有出现的单词引起的，也延伸到单词使用的偏差，其中一些单词，通常是形态复杂的单词，比具有相同含义的其他单词或短语使用得更因此，嵌入遭受不太频繁的单词的不准确建模，这在罕见单词simi上的单词嵌入的相对较低的性能中是明显的版权归作者所有。以.马丁，K. Hinkelmann，A. Gerber，D.Lenat，F.van Harmelen，P.Clark（Eds.），AAAI 2019春季研讨会将机器学习与知识工程相结合斯坦福大学，帕洛阿尔托，加利福尼亚州，美国，2019年3月25日至27日。larity 任务（ Luong ， Socher 和 Manning 2013 b ）。Bojanowski等人（2016年a）的一种方法提出使用字符n-gram 表示来解决词汇表外和罕见单词的问题。（Faruqui et al. 2014）还提出了对本体的向量进行改造，以处理不太频繁的单词的不准确建模。然而，这些方法一词多义是语言的一个重要特征，它使单词根据其出现的上下文而具有不同的含义或“意义”。例如，单词bank可以指金融机构或河流两岸的土地。大量的工作已经投入到开发词义消歧系统中，以根据上下文识别单词的正确含义另一方面，词消歧系统的可用性，再加上自然语言处理系统对分布式语义的日益依赖，导致人们对获得强大的意义表示越来越感兴趣。已经进入学习感觉表征的一些先前工作包括用于聚类上下文和学习多原型向量的无监督学习技术（Reisinger和Mooney 2010），（Huang等人2012）和（Wu和Giles 2015））。基于聚类的方法的一个共同缺点是难以先验地决定聚类（（ Neelakantan et al.2015），（Tian et al. 2014），（Cheng and Kartsaklis2015））也通过修改Skip-Gram模型来学习多词嵌入。这些方法产生了在可解释性方面受到限制的感觉表征为了弥补这一点，（ Iacobacci ， Pilehvar 和 Navigli2015），（Chen，Liu和Sun 2014）使用语义标记的语料库和Word 2 Vec修改来获得语义表示;然而，它们只使用分布语义。以前结合分布式语义和知识库的工作包括（Jauhar，Dyer和Hovy 2015）和（Rothe和Schütze2015），这些工作将嵌入嵌入本体以获得意义表示。因此接地，这些技术大大提高了在几个相似性任务上的表现，但观察到的模式是，这导致在单词相关性任务上的表现受损（（Faruqui等人，2014），（Jauhar，Dyer和Hovy−2015））。在这项工作中，我们提出了一种新的方法，使用知识边缘基地和意义表示直接诱导polysemy任何预定义的词嵌入空间。我们的方法导致可解释的，本体论接地的意义表示，可以很容易地与强大的消歧系统使用。本文的主要贡献是：a）获得在相似性和相关性任务上表现良好的本体论基础的感觉表示; b）自动感觉归纳和将知识库信息集成到任何预定义的嵌入空间中，而无需重新训练; c）当与CoVE（McCann等人，2017）和ELMo（Peters）等迁移学习方法一起使用时，我们的嵌入也显示出了2018年），关于外部任务。d）此外，我们提出了知识库增强的方法，以及学习更有效的感觉表征的方法。方法因此，在我们的方法中，我们依赖于a）意义标记语料库以获得情境化的意义表征。其目的是捕捉自然语料库中的意义关系和相互作用。意义表征是可解释的，并且具有到知识库的词汇映射。我们使用它们来诱导词嵌入空间中的多义性。b）预先训练的词嵌入，以捕获由于在大量数据上训练而固有的有益词汇关系。由于用于训练它们的语义标记语料库的大小有限，语义表征不能充分捕捉这些关系c）最后，为了解释语料库中的词汇偏见，这导致相似意义的词在嵌入空间中相距更远，我们使用知识库来联合地表达词和意义。因此，我们描述了我们的方法在三个部分：a）词汇建设，b）意义形式表示和c）多词意义表示a) 词典大厦对于我们的知识库，我们依赖于 WordNet （ Miller1995）和Thesaurus1。WordNet（WN）是一个大型的词汇数据库，它将同义词分为同义词集合，并以同义词、上位词和下位词的形式记录它们之间的关系。同义词集是高度可解释的，因为它们带有示例。另一方面，同义词词典根据意义的相似性将单词分组到不同的聚类中。WordNet（WN）的结构是这样的，它标记了不同同义词之间的语义关系。虽然这种结构有助于确定的相似性，它会导致一个限制集表示同义词集合的同义词。为了最好地结合这两种资源的信息，我们使用同义词库在WordNet同义词集中增加第1https://www.thesaurus.com/图1：基于语法形式信息与WordNet（WN）不同，同义词词典没有明确的意义标签。相反，意义是由一组词来表示的。给定一个查询词，同义词词典返回词的聚类，每个聚类表示某种意义。给定一个WN同义词集，我们使用同义词集的中心词来查询同义词词典，并使用一个简单的概率是基于聚类中的单词和WN结构来分配的。因此，如果一个词库集群有更多的词是“更接近”基于WN结构， synset（s），它接收到更高的概率。为了测量路径相似性（p）通过考虑两个同义词集之间的距离来衡量它们之间的相似性它的范围从0到1，分数向1表示“更接近”的同义词集。由于路径相似性（p）计算两个同义词集之间的相似性，因此给定使用WN同义词集（s）的中心词查询的词库集群中的词（w），我们通过首先获得WN中针对w的所有同义词集（Sw）来找到s和w之间的基于距离的相似性dw，s，并如下使用它来计算dw，s。dw，s<$max{p（s，si）<$si∈Sw}如果在WN中没有找到一个单词，我们将d w，s赋值为0。1，这是最低的基于距离的相似性，意味着它是为了说明同义词库←联系我们←Σ集群算法1同义词收录输入：WordNet Synset（s），对应的同义词集（Sw）集合包括相同含义的单词，而在它们的句法形式之间没有区别例如，考虑同义词集operate.v.01，定义为输出：所有单词中最可能的单词Cwn的聚类businesses在同义词词典中找到一个词的可能聚类Cw1：Cw同义词库（w）2：如果长度（Cw）= 13：n = 04：其他5：pc（w）p（cluster）cluster Cw6：n索引（pc（w），max（pc（w））9：返回Cwn并且防止较大的聚类总是具有较大的分数，我们基于每个词的d分数将每个聚类（c）中的词划分为十个离散的箱（bin）仓在0的增量范围内。1（（[0-0.1，0.11- 0.2，.，0.91-1.0]），最高分仓为1。然后，我们获得聚类得分，聚类得分为：集.实际上，一个词的每一种句法形式都有不同的语义分布。例如，在这个意义上，发现run最有可能与诸如lead和head之类的词一起出现，而其替代形式running更有可能与诸如managing、administrating、leading之类的词一起出现。为了解释语义上的这种差异，我们扩展了WordNet节点，以包含语法形式信息，并将同义词集、语法形式对称为为了获得不同的意义形式节点，我们利用OMSTI语料库，并记录不同形式的同义词集的基础上，不同的句法形式的词相关联的同义词集。每一个“意义形式”然后链接到相应的同义词的句法形式。扩展WordNet（Ext-WN）意义形式节点和同义词如图1所示。b) 意义-形式表征为了获得意义形式表示，我们使用了一个带有意义标签的语料库OMSTI（Taghipour and Ng 2015）。Thecorpus con-评分聚类=bin∈binswbin计数（bin）基于WordNet获取有意义的词。每个义项标记的词都与找到的相应同义词集相关联然后我们得到一个集群的概率（p集群）从在WN。我们对语料库进行预处理，将每个单词和同义词集对替换为基于句法的意义形式通过sigmoid函数传递给聚类得分指数聚类标记词和同义词的tic形式。然后我们使用Word2Vec工具包（Mikolov et al.2013b））与跳过p聚类=exp（得分）+1Gram目标函数和负采样来获得我们的上下文化的然后，挑选词库集群中具有最高概率的词以扩充到相应WN同义词集的同义词列表中。我们在表1中，我们表示了这一步带来的词汇和同义词集簇的变化最后一列记录了WordNet中与同义词集链接的同义词的平均数量。最初，由于WordNet严格的关系结构，我们看到在一个同义词集中平均有大约2个同义词这个数字大大增加了我们的词库增强。话短语平均同义词（每个同义词集）WordNet147307694081.75叙词表（介绍）40265007.37表1：通过包含词库，WordNet中的词汇和同义词集簇发生了变化WordNet表单扩展为了获得满足相似性和相关性的表示，我们修改了WordNet中的同义词集节点。WordNet中的同义词集由一组同义词表示。我们注意到这些同义词c) 词义表征与归纳我们初始化WN中的每个意义形式节点使用从意义标记语料库中获得的表示。然后，对于每个意义形式和相应的增强同义词集，我们通过将单词和意义形式嵌入WordNet来获得独特的多词义表示。对于一个词（w）在一个意义（s）的同义词集中，我们得到如下的多词义表示：vw，s=αw，s（[uw，vs，form（s）]）其中，uw是预训练的单词嵌入，vs，form（s）是从加了意义标签的语料库中学习到的节点的上下文化的意义形式表示。对于接地，我们使用WordNetαw，s= 1−clog（x），其中x=秩s，w+d（w，s）对于w，s对中的词（w），WN以可能性的降序给出意义（Sw）的列表。我们用它来获得意义s相对于w的秩ranks，w。因此，一个词在Sw中的秩为1的意义是该词最可能的意义。如前所述，我们通过为每个同义词集节点添加同义词词典来使用增强同义词集，这意味着在我们的扩展WN中有许多在WN中找不到的词义对为ΣΣ−例如，扩展WN包括这个词和意义对（保持，在不使用上下文的情况下计算相似度分数。M Ninfluence.n.01）在WN中未发现因此，如果来自我们的扩展WN的词（w），意义（s）对存在于Sw中，我们使用AvgSim（w，w'）=1（cos（vMNi=1j =1w，i，vw'，j））直接排名如果不是，我们使用Sw中与词义对中的词义s“最接近”的同义词集的秩所述WNMaxSim（w，w'）=max1≤i≤M，1≤j≤Mcos（vw，i，vw'，j）路径相似性（P）度量用于表示“接近度”。我们还希望惩罚在我们的扩展- WN对中发现的意义s更多，如果它们在WN图结构中比WN为单词w给出的原始意义Sw更远。直觉是，在WN图中，一个意义越接近一个词，它与该词的相关性就越大同样的直觉也被用于将向量改造为词典（Faruqui et al. 2014）。d（Sw，s）是我们方程中的惩罚器，它获得了一个词和一个意义之间的距离，如下所示：d（w，s）=min（[1−p（s，x）<$x∈Sw]）召回率p（s，x）是路径相似性分数，其中较高分数表示较近的对，这意味着较近的对得到较低的惩罚距离。我们使用单调递减分布1clog（x），c作为概率分布中的某个常数，如（Arora et al. 2018）所示。因此，对于这个分布，馈送w和s之间的等级和图结构距离，等级较低（其中一个是最高的）和较远的同义词集（或较大的d）得到较低的缩放分数。在等级和距离上相似的感觉因此得到相似的缩放分数。因此，我们得到了具有缩放因子的接地表示反映似然度的αw，s和本体图结构。实验在本节中，我们描述了评估我们的多词义词嵌入的实验我们使用一系列现有的单词相似性和相关性数据集进行内在评估，并使用2个任务的4个数据集进行外在评估。内在评价我们测试我们的嵌入本质上相似性，相关性和上下文相似性数据集。为了运行我们的实验，我们选择了 300 维 GLoVE（ Pennington ， Socher ， and Manning 2014 ）和 Skip-Gram（SG）（Mikolov et al. 2013 a）的两种不同嵌入。我们在实验中使用这些嵌入进行词义归纳，因为在撰写本文时，它们是NLP系统的热门选择。在缩放和与词嵌入的级联之后得到的CoKE嵌入是600维。相似性度量给定一对具有M个意义的词w和具有N个意义的词w'，我们使用由（Reisinger和Mooney 2010）提出的以下两个度量来计算：AvgSim计算单词相似度作为所有意义向量对之间的平均相似度。而MaxSim计算所有成对意义向量相似性的最大值我们在表2中表示两个基线。和表3.，除了单个原型词嵌入本身的基线分数之外。我们表示的第一个基线是测量从OMSTI语料库中学习的意义嵌入与使用WordNet检索单词意义的单词嵌入的连接性能。该基线用于指示来自两个不同来源的拼接嵌入的分数。这在表中表示为+Synset（WN）。第二个基线，+CoKE（Ext-WN）是跟踪性能变化时，分裂的感觉，感觉形式和地面- ING他们扩展WN。最后，我们显示分数，+CoKE（Thes+Ext-WN），反映了使用意义形式，扩展WordNet和同义词词典的接地词义表示的性能。词相似度我们在几个标准词相似度数据集上评估我们的嵌入，即SimLex（Hill，Reichart和Korhonen 2015）（ SL-999 ）， WordSim-353 （ Gabrilovich 和Markovitch ）（ WS-S ）， MC-30 （ Miller 和 Charles1991）、RG-65（Rubenstein和Goodenough 1965）、YP-130（Yang和Powers 2006）、SimVerb（Gerz等人2016）（SV）和稀有词（RW ）相似性（Luong、Socher和Manning 2013 a）。每个数据集都包含一个单词对列表，其中包含由人类生成的两个单词相似程度的单独得分。我们计算了由我们的方法产生的标记和分数对于相似性，我们使用MaxSim作为度量，以找到一个词的不同含义之间最相似的对。结果概述于表2中。我们观察到，Synset（WN）的性能较低，通过连接单词和意义嵌入来获得单词意义嵌入，这是因为WordNet中记录的同义词集的同义词数量有限，以及用于学习这些嵌入的数据集的大小有限。表中的平均改善列（平均改善）显示了在将感觉分离为感觉形式和接地（CoKE（Ext-WN））方面的性能的显著改善。这种方法的好处主要体现在SimVerb-3500数据集上。这并不奇怪，因为当单词作为动词出现时，它们往往有更多的句法形式在分布语义学中，动词的句法形式往往保持接近，使得很难捕捉差异。然而，通过观察，向量WS-SRG-65RWSL-999YPMCSV-3500平均改善SG76.9674.9750.3344.1955.8978.8036.35-+Synset（WN）-25.76-11.85-28.24+0.59+5.41-11.44+1.1-10.02+CoKE（Ext-WN）-24.64-7.96-27.7+4.04+11.75-9.48+6.71-6.75+CoKE（Thes+Ext-WN）+0.21+10.84+1.72+17.69+11.69+5.98+13.51+8.80手套79.4376.1545.7840.8257.0878.6028.32-+Synset（WN）-23.05-10.34-23.03+0.48+0.26-10.24+0.47-9.35+CoKE（Ext-WN）-22.11-4.23-25.38+6.96+7.02-6.19+8.06-5.12+CoKE（Thes+Ext-WN）+0.23+11.6+1.51+18.29+11.8+7.27+17.59+9.75表2：示出了在相似性任务上使用CoKE的性能差异的表。原始预训练嵌入分数的基线包含在顶部。同义词集（WN）指示使用来自WordNet的单词的含义与同义词集嵌入的级联，CoKE（Ext-WN）表示使用扩展WordNet获得的CoKE，并且CoKE（Thes+Ext-WN）是使用扩展WordNet的同义词词典增强版本获得的CoKE。向量WS-R男人MT-771SGS平均改善SG61.7573.5967.7156.61-+Synset（WN）-12.37-10.07-6.15-13.25-10.46+CoKE（Ext-WN）-11.65-8.38-5.34-15.72-10.27+CoKE（Thes+Ext-WN）+0.13+0.71+0.19+8.51+2.38手套66.9279.8871.5758.34-+CoKE（WN）-6.52-11.31-4.54-14.36-9.18+CoKE（EXT-WN） -6.78-10.64-3.8-14.7-8.98+CoKE（Thes+Ext-WN）+0.2+0.49+0.47+12.92+3.52表3：使用CoKE在单词相关性任务上的表现差异原始预训练嵌入分数的基线同义词集（WN）指示使用来自WordNet的单词的含义与同义词集嵌入的级联，CoKE（Ext-WN）表示使用扩展WordNet获得的CoKE，并且CoKE（Thes+Ext-WN）是使用扩展WordNet的同义词词典增强版本获得的CoKE。模型ρ X 100（Jauhar，Dyer和Hovy，2015）61.3（Iacobacci，Pilehvar和Navigli 2015），2015年62.4（Huang et al. 2012年）62.8（Athiwaratkun和Wilson 2017）65.5(Chen，Liu和Sun 2014）66.2CoKE + SG（我们的型号）67.3Rothe & Schutze（2015）68.9表四：将我们的多词义表示与斯坦福上下文词相似性（SCWS）数据集上的其他最先进表示进行比较，以评估多义词相似性。同义词库包含（CoKE（Thes+Ext-WN）），这是因为单独使用WordNet导致有限的词素，这是由于在大数据集上训练的结果，与针对单词逐个单词嵌入捕获的大量意义相反，单词由较少的意义表示。在WordNet中包含同义词库并为同义词集增加同义词集时，我们看到表示一个单词的含义数量发生了急剧变化，导致更多的lex-一个词的所有可能的意思都能反映出来。我们还注意到，WS-S的改进相对较低;我们怀疑这是因为数据集是基于关联而不是相似性设计的。我们还观察到，随着数据集的嵌入空间基线变得更高在（Faruqui et al. 2014年）。表5：CoKE、CoVE、CoVE+CoKE、ELMo、CoKE+ELMo的情感分析和分类任务的准确性差异，其中GLoVE作为基线。数据集手套焦炭CoveCoKE（+CoVE）ElmoCoKE（+ELMo）SST-285.9985.7288.1889.4188.02八十九点三二SST-550.1950.5651.450.9751.6251.60TREC-689.9091.5390.5691.1591.5992.78TREC-5083.8485.584.5985.4684.3184.249表6：CoKE在单独使用以及与消歧系统一起使用时提高性能。注意，CoVE和ELMo仅用于消歧，CoKE中不包含它们的表示我们向量的整合也显示了单词相关性任务的改进。作为我们的基准，我们评估了WS-R（相关性）、MTurk（771）（（Halawi et al. 2012））、MEN（（Bruni etal. 2012））和SGS 130（（Szumlanski，Gomez，and Sims 2013））其中包括短语。我们使用Spearman相关性评估我们的方法对标准预训练词嵌入的性能我们使用AvgSim作为衡量相关性和报告分数的指标表3。我们使用的基线与上面描述的单词相似性相同。我们注意到，通过意义-形式分裂的性能改善并不像单词相似性那样剧烈。这可能是由于词相关性任务更频繁地检查对象而不是动词的相关性;意义形式分裂对动词比名词更有利，因为动词的词形式更多样。我们不确定为什么整体性能的提高没有相似度那么高，但分数确实反映了收益，而不是直接改造词汇，这导致相关性严重下降。SGS（Szumlanski，Gomez和Sims 2013）的巨大性能增益是由于数据集中存在的短语。通过使用词库和WN，我们学习了在原始词嵌入空间中找不到的多个短语表示。多义词的词相似度我们使用（Huang et al. 2012）介绍的SCWS数据集，其中选择的词对对于多义词和同音词具有不同的含义我们将我们的方法与其他最先进的多原型模型进行了比较，发现我们的模型与以前的模型相比具有竞争力。我们使用Skip-Gram（SG）词嵌入我们的方法，以允许公平的比较，因为以前的工作使用Skip-Gram进行WordNet的改造。标签和分数之间的斯皮尔曼相关性如表4所示。外部评估许多关于获得感觉嵌入的先前工作显示了内在任务的性能改进，但忽略了在下游任务上测试它们因此，很难判断这些陈述的有效性。为了弥合这一差距，我们在4个数据集上对两个任务（情感分析和问题分类）进行了实验，以提供对我们表示的有用性的一些见解。数据集对于情感分析，我们使用斯坦福情感树库数据集（Socher et al.2013年）。我们分别在二进制版本（SST-2）和五类版本（SST-5）上进行训练对于问题分类，我们评估TREC（Voorhees 2001）问题的性能问题分类数据集，由开放领域问题和语义类别组成。性能比较我们首先在CoKE上运行实验，将单词表示为它们各自的意义嵌入的平均值。众所周知，词是其意义的加权和。因此，使用平均嵌入的直觉是，具有接地的词义表示应该通过平均产生更好的单词表示。最近的趋势也导致人们越来越感兴趣在迁移学习中获得更好的单词表征。CoVE（McCann et al. 2017）和ELMo（Peters et al. 2018）在外部任务方面表现出显着改善。CoVE使用从机器翻译系统中学习的单词表示与GloVE嵌入相结合另一方面，ELMo使用语言模型来获得上下文化的单词表示。如（Peters et al.2018），这些系统固有地充当词义消歧和表示系统。他们给出的词表示条件的上下文，它发生在和执行的国家的最先进的词义消歧系统，但目前还不清楚如何信息的意义表示。因此，我们假设系统可以通过使用更好的感觉表征而受益。由于CoVE和ELMo作为词义消歧系统的良好表现，以及在NLP任务中使用它们的兴趣越来越大，我们在实验中使用它们作为消歧系统来对四个基准数据集进行感测标记。为了使用CoVE或ELMo获得消歧的意义标签，我们使用与（Peters et al.2018年）。我们使用CoVE或ELMo计算每个词为了消除句子的歧义，我们然后通过CoVE或ELMo架构运行句子以获得单词表示，然后通过从相应的CoVE或ELMo计算的意义表示中获取最近邻意义来标记单词。对于ELMo，我们使用最后一层和公开提供的预训练版本在实验中，我们使用GLoVE与同义词词典和扩展WordNet进行连接得到CoKE的词义嵌入，并与CoVE与GLoVE的连接得到CoKE的词义嵌入进行比较，我们选择GLoVE嵌入的CoKE是公平的。因此，我们使用GLoVE，CoVE和ELMo独立地比较性能，使用CoKE表示的平均值来获得单词表示，并且还使用ELMo/CoVE作为消歧系统，其中具有用CoKE嵌入表示的意义标记的单词（CoKE+（CoVE），CoKE（+ELMo））。注意，如果一个词没有意义标记，我们使用与未知向量连接的vanilla GLoVE向量。为了测试数据集上不同嵌入的性能，我们实现了一个单层LSTM（Hochreiter和Schmidhuber 1997），其中隐藏了一个大小为300，并运行我们的实验。参数是针对每个任务和嵌入类型进行微调的.结果如表6所示。使用CoKE示出了与情感分析相对的分类的更显著的改进。这是一个预期的结果，因为我们的方法侧重于本体基础，而不考虑词的极性，这是主要目标情绪分析。另一方面，分类作为一项任务对满足句子之间相似性和相关性的表示更敏感。即使使用平均CoKE嵌入而不消除歧义，也可以在分类任务上看到显着的改进。定性分析在这一节中，我们来看看一些感官诱导的可视化，并展示它们如何容易解释。由于意义标签具有到本体的词汇映射，因此可以查找它们以找到意义。此外，词义的语义我们分析了两个方面：1）词义的形成; 2）不同的词义形式对词义在其各自的词形中的表达和词义互动的影响。对于我们所有的分析，我们使用CoKE +GLoVE嵌入的级联版本，并使用主成分分析来执行降维。感知集群我们看看我们的词特定的意义嵌入形成的意义集群单词“rock”的聚类如图2所示。“岩石”这个词的多重细粒度词义嵌入集群形成5个基本意义。我们看到三个明显的星系团占主导地位。“摇滚2号”可以解释为所有把摇滚说成是“物质”的同义词。在“摇滚乐#3”中，同义词集合在一起，将摇滚乐称为“音乐”。通过比较“过滤器#1”和“过滤器#5”，可以观察到一个有趣的特性。在这两个集群中发现的感觉将“岩石”解释为“运动/运动”。然而，这两个不同的集群也捕捉到了这种运动。例如，感官滚动。13、摇滚。01在“第五号机器人”地图中特别指出“侧向运动”。而在“第一个动作”中，感官映射到“突然的动作”（抽搐、颤抖、移动、颤抖）和“来回的动作”（摇晃、摇晃）。另一个有趣的属性是由“碎石#4”描述的感觉形式在本节中，我们分析不同的意义形式表示如何在同义词集中相互作用。我们这样做是通过考虑单词形式图2：使用PCA可视化的单词“rock”的意义集群图3：a）“计划”一词不同含义之间的相互作用b）“规划”一词不同含义之间的相互作用“masterd.v.01” （光泽：计划和直接，一个复杂的undertaking）。为了观察词形的意义-形式关系的差异，我们只考虑“plan”和“planning”中用于形象化的共同同义词，并观察它们之间的相互作用。对于图3.a）中所示的单词“草图”“准备”相比之下，如图3.b）所示的嵌入空间中用于“规划”的相同同义词集与类似于“项目规划”、“调度”、“组织”的同义词集密切交互。这表明，使用不同的意义形式表示，导致不同的和独特的互动之间的同一组同义词为每个词。结论在我们的工作中，我们探索了通过使用分布语义学和知识库来获得多词义表示和意义归纳到嵌入空间的可能性。原型允许WSD系统的易用性，可以很容易地在下游应用中使用，因为它们是便携式的，并且可以灵活地用于各种各样的任务。以前的工作获得的感觉表示分为三个不同的集群-无监督的方法，监督资源特定的方法和本体论的基础。通过使用预先训练的无监督嵌入，监督意义嵌入，并将它们共同接地在本体中，我们是第一种方法，在于所有三种方法的交叉。代码和矢量也将公开提供。引用Arora，S.;李，Y.;梁玉;马，T.;和Risteski，A. 2018.词义的线性代数结构及其在一词多义中的应用。TransactionsoftheAssociationofComputa-tionalLinguistics6：483-495.Athiwaratkun ，B.，Wilson ，A. G. 2017.多模态词分布。在计算语言学协会第55届年会的会议记录1645Bojanowski，P.; Grave，E.; Joulin，A.;和Mikolov，T.2016 年 a 。用子词信息丰富词向量。 arXiv 预印本arXiv：1607.04606。Bojanowski，P.; Grave，E.; Joulin，A.;和Mikolov，T.2016 年 b 。用子词信息丰富词向量。 arXiv 预印本arXiv：1607.04606。Bruni，E.; Boleda，G.; Baroni，M.;和Tran，N.- K. 2012.Technicolor中的分布语义。在计算语言学协会第50届年会的会议记录：长论文-第1卷，136-145。计算语言学协会。陈X.;刘志; Sun，M. 2014.词义表示与消歧的统一模型。在2014年自然语言处理经验方法会议上，1025Cheng，J.，和Kartsaklis，D. 2015.语义深层组合模型的句法感知多义词嵌入。 arXiv 预印本 arXiv ：1508.02354。Faruqui，M.; Dodge，J.; Jauhar，S. K.的; Dyer，C.;Hovy，E.; Smith，N.A. 2014年。将词向量改造为语义词典。arXiv预印本arXiv：1411.4166。Gabrilovich，E.，和Markovitch，S.使用基于维基百科的显式语义分析计算语义Gerz ， D.;Vuli c′ ， I.; Hill ， F.; Reichart ， R.;和Korhonen，A. 2016年。Simverb-3500：动词相似度的大规模评估集。arXiv预印本arXiv：1608.00869。Halawi ，G.; Dror， G.; Gabrilovich ，E.;和Koren，Y.2012.限制条件下词汇相关性的大规模学习第18届ACMSIGKDD 国际知识发现和数据挖掘会议论文集，1406ACM。Hill，F.; Reichart，R.;和Korhonen ，A. 2015. Simlex-999 ：使用（真实）相似性估计评估语义模型。Computational Linguistics41（4）：665-695.Hochreiter ， S. ，和 Schmidhuber， J.1997 。长短期记忆。Neural computation9（8）：1735-1780.Huang，E. H.的; Socher，R.;曼宁角D.的;和Ng，A. Y.2012.通过全局上下文和多个单词原型改进单词表示。计算语言学协会第50届年会论文集：长论文-第1卷，873-882。计算语言学协会。Iacobacci，I.;Pilehvar，M.T.; 和Navigli，R.2015年。感觉床：学习单词和关系相似性的感觉嵌入。在Proceedings of the 53rd Annual Meeting of the Associationfor Computational Linguistics and the 7th InternationalJointConferenceonNaturalLanguageProcessing（Volume 1：Long Papers），卷1，95Jauhar，S. K.的; Dyer，C.;和Hovy，E. 2015.语义向量空间模型的基于本体的多意义表示学习。在2015年计算语言学协会北美分会会议录：人类语言技术，683-693。Luong，M.- T.; Socher，R.; Manning，C. D. 2013年a.更好的词表示与递归神经网络的形态。在CoNLL。Luong，T.; Socher，R.; Manning，C. 2013年b.用递归神经网络进行形态学的更好的单词表示第十七届计算机自然语言学习会议论文集。McCann，B.; Bradbury，J.;熊，C.;和Socher，R. 2017.学习翻译：语境化的词向量。神经信息处理系统的进展，6297- 6308。Mikolov，T.; Chen，K.; Corrado，G.; Dean，J. 2013 a.向量空间中单词表示的有效估计arXiv预印本arXiv：1301.3781。Mikolov，T.; Sutskever，I.; Chen，K.;科拉多湾S.的;Dean，J. 2013 b.单词和短语的分布式表示及其组合。神经信息处理系统的进展，3111Miller，G.一、和Charles，W. G. 1991.语义相似性的上下文相关性。语言和认知过程6（1）：1-28。Miller，G. A. 1995. Wordnet：英语词汇数据库。Communications of the ACM38（11）：39-41.Neelakantan，A.;Shankar，J.;Passos，A.;还有麦卡勒姆A. 2015. 向量空间中每个字多重嵌入的有效非参数估计。arXiv预印本arXiv：1504.06654。Pennington，J.; Socher，R.; Manning，C. 2014. Glove：单词表示的全局向量。在2014年自然语言处理经验方法会议（EMNLP）的会议记录中，1532彼得斯，M。E.的; Neumann，M.; Iyyer，M.; Gardner，M.; 克拉克，C.的;李，K.;和Zettlemoyer，L. 2018.深层语境化的词表征。在NAACL的中。Reisinger，J.，和Mooney，R. J. 2010.词义的多原型向量空间模型。人类语言技术：2010年计算语言学协会北美分会年会，109-117。计算语言学协会。Rothe，S.，和Schütze，H. 2015年。自动扩展：将单词嵌入扩展为同义词集和词素的嵌入。arXiv预印本arXiv：1507.01127。Rubenstein，H.，和Goodenough，J. B. 1965. 同义关系的语境相关物。Communications of the ACM8（10）：627-633.Socher，R.;Perelygin，A.;吴，J.;Chuang，J.;曼宁，C. D.的; Ng，A.;和Potts，C. 2013. 情感树库上语义组合性的递归深度模型2013年自然语言处理经验方法会议论文集，1631Szumlanski，S.; Gomez，F.;和Sims，V.K. 2013.一组新的语义相关性测度的范数《计算语言学协会第51届年会论文集》，第2卷，第890-895页Taghipour，K.，和Ng，H. T. 2015.一百万个词义标注实例，用于词义消歧和归纳。第十九届计算机自然语言学习会议论文集，338T

下载后可阅读完整内容，剩余1页未读，立即下载