CoKE：使用上下文知识嵌入的词义诱导

94 浏览量更新于2023-09-05 收藏 752KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

CoKE：基于语境化知识嵌入的词义归纳桑贾娜·兰普拉萨德Mya系统sanjana. hiremya.com詹姆斯·马多克斯Mya系统james. hiremya.com摘要词嵌入可以捕获词汇语义信息，但仍然存在缺陷，无法为多义词的不同含义分配唯一的它们也没有包括来自精心策划的语义词典和词典的信息。以前的方法，获得到逻辑接地词义表示学习嵌入，是优越的理解上下文相似性，但优于几个词相关性任务的单个原型词。在这项工作中，我们引入了一个新的ap-proach，可以诱导多义任何预定义的嵌入空间，通过联合接地上下文的意义表示，从意义标记语料库和词嵌入到知识库中学习。这种方法的优点是，它允许整合本体信息，同时也很容易诱导多义的预定义的嵌入空间，而不需要重新训练。我们评估了我们的向量在几个词的相似性和相关性的任务，以及两个外在的任务，并发现它始终优于当前的最先进的。介绍单词的分布式表示（Mikolov et al. 2013b）已经被证明成功地解决了将单词视为意义的原子单位的符号表示的各种通过对相似的单词进行分组并捕获类比和词汇关系，它们是一些下游NLP应用程序中的热门选择。虽然这些嵌入捕获有意义的词汇关系，但它们也有自己的缺点。例如，完全依赖于自然语言语料库放大了数据集中固有的现有词汇偏差。词汇偏差是由在训练语料库中看不到的词引起的，并且还扩展到词使用中的偏差，其中一些词（通常是形态复杂的词）比具有相同含义的其他词或短语使用得更因此，嵌入遭受不太频繁的单词的不准确建模，这在罕见单词simi上的单词嵌入的相对较低的性能中是明显的版权归作者所有。以. Martin，K. Hinkelmann，A. Gerber，D.Lenat，F.van Harmelen，P.Clark（Eds.），AAAI 2019春季研讨会将机器学习与知识工程相结合斯坦福大学，帕洛阿尔托，加利福尼亚州，美国，2019年3月25日至27日。larity 任务（ Luong ， Socher 和 Manning 2013b ）。Bojanowski et al. 2016 a）提出使用字符n-gram表示来解决词汇表外和罕见单词的问题。（Faruqui等人2014）还提出了对本体的向量进行改造以处理不太频繁的单词的不准确建模。然而，这些方法一词多义是语言的一个重要特征，它使单词根据其出现的上下文而具有不同的含义或“意义”。例如，单词bank可以指金融机构或河两岸的土地。大量的工作已经投入到开发词义消歧系统中，以基于其上下文来识别单词的正确含义另一方面，词消歧系统的可用性，再加上对分布式语义的NLP系统的日益依赖，导致人们对获得强大的意义表示越来越感兴趣。已经进入学习感觉表示的一些先前工作包括用于聚类上下文和学习多原型向量的无监督学习技术（Reisinger和Mooney 2010）、（Huang et al. 2012）和（Wu和Giles 2015））。基于聚类的方法的共同缺点是难以先验地决定聚类（（Neelakantan et al. 2015）、（Tian et al. 2014），（Cheng和Kartsaklis 2015））也通过修改Skip-Gram模型来学习多个词嵌入。这些方法产生在可解释性方面受限的感觉表示，为了弥补这一点，（Iacobacci，Pilehvar和Navigli 2015），（Chen，Liu和Sun 2014）使用语义标记语料库和Word 2 Vec修改来获得语义表示;然而，它们仅利用分布语义。以前结合分布式语义和知识库的工作包括（Jauhar，Dyer和Hovy 2015）和（Rothe和Schütze2015），这些工作将嵌入嵌入到本体中以获得意义表示。因此这些技术极大地改善了在几个相似性任务上的表现，但是观察到的模式是这导致在单词相关性任务上的折衷表现（（Faruqui et al. 2014），（Jauhar，Dyer，and Hovy−2015））。在这项工作中，我们提出了一种新的方法，使用知识边缘基地和意义表示直接诱导polysemy任何预定义的词嵌入空间。我们的方法导致可解释的，本体论接地的意义表示，可以很容易地使用强大的消歧系统。本文的主要贡献是a）获得在相似性和相关性任务上表现良好的本体论接地感觉表示b）自动感觉归纳和知识库信息集成到任何预定义的嵌入空间中而无需重新训练c）当与迁移学习方法如CoVE（McCann et al. 2017）和ELMo（彼得斯2018年）的外部任务。d）此外，我们提出了知识库增强的方法，以及学习更有效的感觉表征的方法。方法因此，在我们的方法中，我们依赖于a）感觉标记语料库以获得情境化的意义表征。其目的是捕捉自然语料库中的意义关系和相互作用。意义表示是可解释的，并且具有到知识库的词汇映射。我们使用它们来诱导词嵌入空间中的多义词。b）预先训练的词嵌入，以捕获由于在大量数据上训练而固有的有益词汇关系。由于用于训练它们的义标记语料库的大小有限，义表示不足以捕获这些关系c）最后，为了解释语料库中的词汇偏差，其导致相似含义的单词在嵌入空间中相距更远，我们使用知识库来联合地进行单词和意义表示。因此，我们描述了我们的方法在三个部分a）词汇建设b）意义形式表示和c）多词意义表示a) 词典建设对于我们的知识库，我们依赖于 WordNet （ Miller1995）和Thesaurus1。WordNet（WN）是一个大型的词汇数据库，它将同义词分组为同义词集，并以同义词、上位词和下位词的形式记录它们之间的关系。同义词集是高度可解释的，因为它们带有示例。另一方面，同义词库根据意义的相似性将单词分组到不同的集群中。词库包含WordNet（WN）的结构是这样的，它标记不同同义词集之间的语义关系。虽然这种结构有助于确定程度的相似性，它导致了一个限制集表示同义词集的同义词。为了最好地结合这两种资源的信息，我们使用同义词库在WordNet同义词集中增加1https://www.thesaurus.com/图1：基于语法形式信息与WordNet（WN）不同，同义词库没有不同的感官标签。相反，意义是由一组词来表示的。给定一个查询词，同义词库返回词的聚类，其中每个聚类表示某种意义。给定一个WN同义词集，我们使用同义词集的中心词来查询同义词词典，并使用一个简单的概率基于聚类中的单词和WN结构来分配。因此，如果同义词库集群具有基于WN结构“更接近”的更多单词，则synset，则它接收到更高的概率。为了测量路径相似性（p）通过考虑两个同义词集之间的距离来度量它们之间的相似性它的范围从0到1，分数向1表示“更接近”的同义词集。由于路径相似性（p）计算两个同义词集之间的相似性，因此给定使用WN同义词集（s）的中心词查询的词库集群中的词（w），我们通过首先获得WN中针对w的所有同义词集（Sw）来找到s和w之间的基于距离的相似性dw，s，并如下使用它来计算dw，s。dw，s←max{p（s，si）si∈Sw}如果在WN中没有找到单词，则我们将d w，s分配为0。1，这是最低的基于距离的相似性，意味着它来说明同义词库简体中文联系我们简体中文Σ集群算法1叙词表包含输入：WordNet同义词集，对应的同义词集（Sw）集合包括相同含义的单词，而在它们的句法形式之间没有区别例如，考虑定义为“direct or control; projects”的同义词集operate.v.01，输出：所有聚类中的单词Cwn的最可能聚类businesses在同义词库中为一个词找到的可能的聚类1：Cw词库（w）2：如果长度（Cw）=13：n = 04：其他5：pc（w）p（簇）簇Cw6：n索引（pc（w），max（pc（w））9：返回Cwn并防止较大的簇总是具有较大的分数，我们基于每个词的d分数将每个簇（c）中的词划分为十个离散的箱（bin）仓在0的增量范围内。1（（[0-0.1，0.11-0.2，…0.91-1.0]），其中最高得分区间为1。然后，我们获得聚类得分，聚类得分为：套在实践中，一个词的每一种句法形式都有不同的语义分布。例如，在这个意义上，发现run最有可能与诸如lead和head之类的词一起出现，相比之下，它的替代形式 running 更有可能与诸如 managing 、administrating、leading之类的词一起出现。为了解释语义上的这种差异，我们扩展了WordNet节点，以包含语法形式信息，并将同义词集、语法形式对称为为了获得不同的意义形式节点，我们利用OMSTI语料库，并记录不同形式的同义词集的基础上，不同的句法形式的词相关联的同义词集。每一个“意义形式”然后链接到相应的句法形式的同义词。图1中描述了扩展的WordNet（Ext-WN）意义形式节点和同义词b) 意义-形式表征为了获得意义形式表示，我们使用了一个带有意义标签的语料库OMSTI（Taghipour and Ng 2015）。Thecorpus con-评分聚类=bin∈binswbin*count（bin）基于WordNet获取有意义的词。每个义项标记的词都与找到的相应同义词集相关联。然后我们得到一个簇的概率（p集群）从在WN。我们对语料库进行预处理，将每个单词和同义词集对替换为基于句法的意义形式通过将其传递给sigmoid函数来对聚类进行exp（分数聚类）标记词的tic形式和同义词集。然后，我们使用Word2Vec工具包（（Mikolov et al.2013b））与跳过p聚类=exp（得分）+1革兰氏目标函数和负采样，以获得我们的语境化的然后挑选词库集群中具有最高概率的单词以扩充到相应WN同义词集的同义词列表中。我们在表1中，我们表示由该步骤引起的词汇表和同义词集簇变化最后一列记录WordNet中与同义词集链接的同义词的平均数量。最初，由于WordNet严格的关系结构，我们看到在一个同义词集中平均有大约2个同义词这个数字大大增加了使用同义词库进行增强。话短语平均同义词（每个同义词集）词网147307694081.75叙词表（介绍）40265007.37表1：通过包含词库，WordNet中的词汇和同义词集簇发生了变化WordNet表单扩展为了获得满足相似性和相关性的表示，我们修改了WordNet中的同义词集节点。WordNet中的同义词集由一组同义词表示。我们观察到这些同义词c) 词义表征与归纳我们初始化每个意义形式节点WN使用的表示，从意义标记语料库中获得的。然后，对于每个意义形式和相应的增强同义词集，我们通过将单词和意义形式嵌入WordNet来获得独特的多词义表示。对于意义（s）的同义词集中的词（w），我们获得如下的多词义表示：vw，s=αw，s（[uw，vs，form（s）]）其中，uw是预训练的词嵌入，vs，form（s）是从加了语义标签的语料库学习到的节点的上下文化的语义形式表示。对于接地，我们使用WordNetαw，s= 1−clog（x），其中x=秩s，w+d（w，s）对于w，s对中的词（w），WN以可能性的降序给出意义（Sw）的列表。我们用它来获得意义s相对于w的秩ranks，w。因此，单词的Sw中具有秩1的意义是该单词的最可能的意义。如前所述，我们通过从同义词库中为每个同义词集节点添加来使用增强同义词集，这意味着在我们的扩展WN中有许多在WN中找不到的词义对为ΣΣ−例如，扩展WN包括此词义对（hold在不使用上下文的情况下计算相似性分数。分子量influence.n.01）在WN中未发现因此，如果来自我们的扩展WN的词（w）、意义（s）对存在于Sw中，则我们使用AvgSim（w，w’）=l（cos（v锰i=1j =1w，i，vw’，j））直接排名如果不是，我们使用Sw中的同义词集的秩，其WNMaxSim（w，w’）=max1≤i≤M，1≤j≤Mcos（vw，i，vw'，j）路径相似性（P）度量用于表示“接近度”。我们还希望惩罚在我们的扩展- WN对中发现的意义s更多，如果它们在WN图结构中更远到由WN针对词w给出的原始意义Sw。直觉是，意义越接近WN图中的词，其与该词的相关性越高同样的直觉也遵循着将向量改造为词典的方法（Faruqui et al. 2014）。d（Sw，s）是我们的等式中的惩罚器，其获得词和意义之间的距离如下：d（w，s）=min（[1−p（s，x）x∈Sw]）回想p（s，x）是路径相似性分数，其中较高分数表示较近的对，这意味着较近的对得到较低的惩罚距离。我们使用单调递减分布1clog（x），其中c作为我们的概率分布中的某个常数，如（Arora et al. 2018）。因此，对于该分布，馈送w和s之间的等级和图结构距离，等级较低（其中一个是最高的）和较远的同义词集（或较大的d）得到较低的缩放分数。在等级和距离上相似的感觉因此得到相似的缩放分数。因此，我们得到具有缩放因子的接地表示反映似然度的αw，s和本体图结构。实验在本节中，我们描述了评估我们的多词义词嵌入的实验我们使用一系列现有的单词相似性和相关性数据集来进行内在评估，并使用2个任务中的4个数据集进行外在评估。内在评价我们测试我们的嵌入本质上的相似性，相关性和上下文相似性数据集。为了运行我们的实验，我们选择 300 维 GLoVE（Pennington，Socher和Manning 2014）和Skip-Gram（SG）（Mikolov et al. 2013a）。我们在实验中使用这些嵌入进行词义归纳，因为在撰写本文时，它们是NLP系统的热门选择。在缩放和与词嵌入的级联之后得到的CoKE嵌入是600维。给定一对具有M个意义的词w和具有N个意义的词w’，我们使用由（Reisinger和Mooney 2010）提出的以下两个度量来计算：AvgSim计算单词相似度作为所有意义向量对之间的平均相似度。而MaxSim计算所有成对意义向量相似性的最大值我们在表2中表示两个基线。和表3.，除了单个原型词嵌入本身的基线得分之外。我们表示的第一个基线是测量从OMSTI语料库中学习到的串联意义嵌入以及使用WordNet检索单词意义的单词嵌入的性能。该基线用于指示关于连接来自两个不同来源的嵌入的分数。这在表中表示为+Synset（WN）。第二个基线，+CoKE（Ext-WN）是跟踪性能变化时，分裂的感觉，感觉形式和地面- ING他们扩展WN。最后，我们显示分数+CoKE（Thes+Ext-WN），其反映了使用意义形式、扩展WordNet和词库的接地词义表示的性能。我们在几个标准单词相似性数据集上评估我们的嵌入，即SimLex（Hill，Reichart和Korhonen 2015）（SL-999 ）， WordSim- 353 （ Gabrilovich 和 Markovitch ）（WS-S），MC-30（Miller和Charles 1991），RG-65（Rubenstein和Goodenough 1965），YP-130（Yang和Powers 2006），SimVerb（Gerz et al. 2016）（SV）和稀有词（RW）相似性（Luong，Socher，and Manning2013 a）。每个数据集包含一个单词对列表，其中包含由人类生成的两个单词相似程度的单独得分。我们计算了标签和由我们的方法产生的分数对于相似性，我们使用MaxSim作为度量，以找到一个词的不同含义之间最相似的一对。结果概述于表2中。我们观察到，通过将单词与意义嵌入连接以获得单词意义嵌入而获得的Synset（WN）的较低性能是因为WordNet中记录的同义词集的同义词数量有限以及用于学习这些嵌入的数据集的大小有限。表中的平均改善列（平均改善）示出了在将感觉分离为感觉形式和接地（CoKE（Ext-WN））方面的性能的显著改善。这种方法的好处主要体现在SimVerb-3500数据集上。这并不奇怪，因为当单词作为动词出现时，它们往往有更多的句法形式在分布语义学中，动词的句法形式往往保持接近，使得难以捕捉差异。然而，可以通过看到急剧的改善向量WS-SRG-65乌尔曼SL-999硬盘管委会SV-3500平均改善秘书长76.9674.9750.3344.1955.8978.8036.35-+Synset（WN）-25.76-11.85-28.24+0.59+5.41-11.44+1.1-10.02+CoKE（Ext-WN）-24.64-7.96-27.7+4.04+11.75-9.48+6.71-6.75+CoKE（Thes+Ext-WN）+0.21+10.84+1.72+17.69+11.69+5.98+13.51+8.80手套79.4376.1545.7840.8257.0878.6028.32-+Synset（WN）-23.05-10.34-23.03+0.48+0.26-10.24+0.47-9.35+CoKE（Ext-WN）-22.11-4.23-25.38+6.96+7.02-6.19+8.06-5.12+CoKE（Thes+Ext-WN）+0.23+11.6+1.51+18.29+11.8七点二十七分+17.59九点七五表2：示出在相似性任务上使用CoKE的性能差异的表。原始预训练嵌入的分数的基线包括在顶部。同义词集（WN）指示使用来自WordNet的单词的含义与同义词集嵌入的级联，CoKE（Ext-WN）表示使用扩展WordNet获得的CoKE，并且CoKE（Thes+Ext-WN）是使用扩展WordNet的同义词词典增强版本获得的CoKE。向量WS-R人MT-771亚格子平均改善秘书长61.7573.5967.7156.61-+Synset（WN）-12.37-10.07-6.15-13.25-10.46+CoKE（Ext-WN）-11.65-8.38-5.34-15.72-10.27+CoKE（Thes+Ext-WN）+0.13+0.71+0.19+8.51+2.38手套66.9279.8871.5758.34-+焦炭（WN）-6.52-11.31-4.54-14.36-9.18+焦炭（EXT-WN）-6.78-10.64-3.8-14.7-8.98+CoKE（Thes+Ext-WN）+0.2+0.49+0.47+12.92+3.52表3：使用CoKE在单词相关性任务上的表现差异原始预训练嵌入的分数的基线同义词集（WN）指示使用来自WordNet的单词的含义与同义词集嵌入的级联，CoKE（Ext-WN）表示使用扩展WordNet获得的CoKE，并且CoKE（Thes+Ext-WN）是使用扩展WordNet的同义词词典增强版本获得的CoKE。模型ρ x 100（Jauhar，Dyer和Hovy，2015）61.3（Iacobacci，Pilehvar和Navigli 2015），2015年62.4（Huang et al. （2012年）62.8（Athiwaratkun和Wilson 2017）65.5(Chen，Liu，and Sun 2014）66.2CoKE + SG（我们的型号）67.3Rothe & Schutze（2015）68.9表4：我们的多词义表示与斯坦福上下文词相似性（SCWS）数据集上的其他现有技术表示的比较，以评估多义词相似性。例如，在使用同义词库包含（ CoKE （ Thes+Ext-WN））时，这是因为单独使用WordNet导致有限的词素，这是由于在大数据集上训练的结果，词由较少的含义表示，而不是由词嵌入为词捕获大量的含义。在WordNet中包含同义词库并为同义词集扩充同义词集时，我们看到表示一个单词的含义数量发生了急剧变化，导致更多的lex-一个词的所有可能的意思。我们还注意到WS-S的改进相对较低;我们怀疑这是因为数据集是基于关联而不是仅仅基于相似性来设计的。我们还观察到，随着数据集的嵌入空间的基线变得更高在（Faruqui et al. 2014）。表5：以GLoVE作为基线的CoKE、CoVE、CoVE+CoKE、ELMo、CoKE+ELMo的情感分析和分类任务的准确性差异。数据集手套焦炭湾CoKE（+CoVE）埃尔莫CoKE（+ELMo）SST-285.9985.7288.1889.4188.02八十九点三二SST-550.1950.5651.450.9751.6251.60TREC-689.9091.5390.5691.1591.5992.78TREC-5083.8485.584.5985.4684.3184.249表6：CoKE在单独使用时以及在与消歧系统一起使用时提高性能。请注意，CoVE和ELMo仅用于消歧，CoKE不包含它们的表示词相关性我们的向量的整合也显示了词相关性任务的改进。作为我们的基准，我们评估WS-R（相关性）、MTurk （ 771 ）（（ Halawi et al. 2012 ））、 MEN（（Brunietal.2012））和SGS130（（Szumlanski，Gomez，and Sims 2013）），其包括短语。我们使用Spearman相关性评估我们的方法对标准预训练单词嵌入的性能我们使用AvgSim作为度量来测量相关性并报告得分表3。我们使用的基线与上面描述的单词相似性相同。我们注意到如何通过意义形式分裂的性能改进是不一样的词相似性剧烈。这可能是由于单词相关性任务更频繁地检查对象而不是动词的相关性;意义-形式分裂对动词比对名词更有利，这是因为动词的词的形式变化更大。我们不确定为什么整体性能的提高不如相似性高，但分数确实反映了收益，而不是直接改造词汇，这导致相关性严重下降。SGS（Szumlanski，Gomez和Sims2013）上的大性能增益是由于数据集中存在的短语。通过使用词库和WN，我们学习了在原始词嵌入空间中未找到的多个短语表示。多义词的词相似性我们使用由（Huang et al. 2012），其中选择词对以具有多义词和同名词的含义的变化。我们比较了我们的方法与其他国家的最先进的多原型模型。我们发现，我们的模型与以前的模型进行竞争。我们使用Skip-Gram（SG）词嵌入与我们的方法，以允许公平的比较，因为以前的工作使用Skip-Gram进行WordNet的改造。标签和分数之间的斯皮尔曼相关性如表4所示。外部评估许多关于获得感觉嵌入的先前工作显示了内在任务的性能改进，但忽略了在下游任务上测试它们因此，很难判断这些陈述的有效性。为了弥合这一差距，我们在4个数据集上对两个任务（情感分析和问题分类）进行了实验，以提供对我们表示的有用性的一些见解。数据集对于情感分析，我们使用斯坦福情感树库数据集（Socher et al.2013）。我们分别训练和测试的二进制版本（SST-2）以及五类版本（SST-5）。对于问题分类，我们在TREC（Voorhees 2001）问题上评估性能问题分类数据集，由开放领域问题和语义类别组成。性能比较我们首先在CoKE上运行实验，通过将单词表示为它们各自的意义嵌入的平均值。众所周知，词是其意义的加权和。因此，使用平均嵌入的直觉是，具有接地的词义表示应该通过平均产生更好的单词表示。最近的趋势也导致了越来越多的兴趣在迁移学习中获得更好的单词表示。CoVE（McCann et al. 2017）和ELMo（Peters et al. 2018年）在外部任务方面表现出显着改善。CoVE使用从机器翻译系统中学习的单词表示与GloVE嵌入相结合另一方面，ELMo使用语言模型来获得上下文化的单词表示。如（Peters et al.2018），这些系统固有地充当词义消歧和表示系统。他们给出了词的代表条件的上下文，它发生在和执行的国家的最先进的词义消歧系统，但目前还不清楚如何信息的意义代表。因此，我们假设系统可以通过使用更好的意义表征而受益。由于有前途的表现CoVE和ELMo作为词义消歧系统和使用它们在NLP任务的兴趣越来越大，我们使用它们作为消歧系统在我们的实验中的感觉标签的四个基准数据集。为了使用CoVE或ELMo获得消歧的意义标签，我们使用与（Peters et al.2018）。我们使用CoVE或ELMo计算每个词为了消除句子的歧义，我们然后通过CoVE或ELMo架构运行句子以获得单词表示，然后通过从相应的CoVE或ELMo计算的意义表示中获取最近邻意义来标记单词。对于ELMo，我们使用最后一层和公开提供的预训练版本在我们的实验中，我们使用通过使用GLoVE与词库和扩展WordNet获得的CoKE词义嵌入作为基础。我们选择具有GLoVE嵌入的CoKE与通过与GLoVE嵌入级联获得的CoVE进行比较。因此，我们使用GLoVE，CoVE和ELMo独立地比较性能，使用CoKE表示的平均值来获得单词表示，并且还使用ELMo/CoVE作为消歧系统，其中具有用CoKE嵌入表示的意义标记的单词（CoKE+（CoVE），CoKE（+ELMo））。注意，如果一个词没有意义标记，我们使用与未知向量连接的vanilla GLoVE向量。为了测试数据集上不同嵌入的性能，我们实现了一个单层LSTM（Hochreiter和Schmidhuber 1997），其中隐藏了一个大小为300，并运行我们的实验。参数是针对每项任务和嵌入类型进行微调的。结果如表6所示。使用CoKE示出了与情感分析相对的分类的更显著的改进。这是一个预期的结果，因为我们的方法侧重于本体论的基础，而不考虑极性的话，这是主要的目标情绪分析。另一方面，分类作为一项任务对满足句子之间的相似性和相关性的表示更敏感。即使使用平均CoKE嵌入而不消除歧义，也可以在分类任务上看到显着的改进。定性分析在这一节中，我们将看到一些感官诱导的可视化，并展示它们是如何容易解释的。由于意义标签具有到本体的词汇映射，因此可以查找它们以找到意义。此外，词义的语义我们分析了两个问题：1）词义的形成;2）不同的词义形式对词义在其各自的词形中的表达和词义互动的影响。对于我们所有的分析，我们使用CoKE + GLoVE嵌入的级联版本，并使用主成分分析来执行降维。感测簇我们看看我们的词特定的意义嵌入的词“摇滚”形成的意义集群单词“rock”的聚类如图2所示。“岩石”一词的多重细粒度词义嵌入聚类形成5个基本词义。我们看到三个明显的星团占主导地位。“簇#2”可以被解释为将岩石称为“物质”的所有同义词。在“Cluster#3”中，同义词集合在一起，将摇滚称为“音乐”。比较“簇#1”和“簇#5”可以观察到有趣的性质。在这两个集群中发现的感觉将“岩石”解释为“运动/运动”。然而，这两个不同的集群也捕捉到了这种运动。例如，感官滚动。13、摇滚01中的“簇#5”映射具体地“侧向移动”。而“群集#1”中的感觉映射到“突然运动”（抽搐，倾斜，移动，颤抖）和“来回运动（摆动，摇摆）”。另一个有趣的性质由“簇#4”描绘感觉形式在本节中，我们分析不同的意义形式表示如何在同义词集中相互作用。我们这样做是通过考虑单词形式图2：使用PCA可视化的单词“rock”的意义聚类图3：a）“计划”一词不同含义之间的相互作用b）“规划”一词不同含义之间的相互作用“mastermind.v.01”（光泽：计划和指导，一个复杂的undertaking）。为了观察词形的意义-形式关系的差异，我们只考虑“plan”和“planning”中的常用同义词，观察它们之间的相互作用。对于如图3.a）所示的单词“草图”，“准备”。相比之下，如图3.b）所示的用于“规划”的嵌入空间中的相同同义词集与类似于“项目规划”、“调度”、“组织”的同义词集紧密交互。这表明，使用不同的意义形式表示，导致不同的和独特的互动之间的同一组同义词为每个词。结论在我们的工作中，我们探索了通过使用分布语义和知识库来获得多词义表示和意义归纳到嵌入空间的可能性。原型允许易于使用的WSD系统，tems，可以很容易地用于下游应用程序，因为它们是便携式的，是灵活的，在各种各样的任务中使用。以前的工作获得的感觉表示分为三个不同的集群-无监督的方法，监督资源特定的方法和本体论的基础。通过使用预先训练的无监督嵌入，监督意义嵌入，并共同接地它们在本体，我们是第一个方法，在于所有三种方法的交集。代码和矢量也将公开提供。引用Arora，S.; Li，Y.; Liang，Y.; Ma，T.;和Risteski，A.2018.词义的线性代数结构及其在一词多义中的应用。TransactionsoftheAssociationofComputa-tionalLinguistics6：483-495.Athiwaratkun，B.，和Wilson，A.例如2017.多模态词分布。在计算语言学协会第55届年会的会议记录（第1卷：（1645-1656）。Bojanowski，P.; Grave，E.; Joulin，A.;和Mikolov，T.2016 年 a 。用子词信息丰富词向量。 arXiv 预印本arXiv：1607.04606。Bojanowski，P.; Grave，E.; Joulin，A.;和Mikolov，T.2016 年 b 。用子词信息丰富词向量。 arXiv 预印本arXiv：1607.04606。Bruni，E.; Boleda，G.; Baroni，M.;和Tran，N.-克雷2012. Technicolor中的分布语义。在计算语言学协会第50届年会的会议记录中：长文-第1卷，136-145。计算语言学协会。Chen，X.; Liu，Z.;和Sun，M. 2014.词义表示与消歧的统一模型。2014年自然语言处理经验方法会议，1025Cheng，J.，和Kartsaklis，D. 2015.语义的深层组合模型的句法感知多意义词嵌入。 arXiv 预印本 arXiv ：1508.02354。Faruqui ， M.; Dodge ， J.; Jauhar ， S. K.; Dyer ， C.;Hovy，E.;和Smith，N.上午2014年将词向量改造为语义词典。arXiv预印本arXiv：1411.4166。Gabrilovich，E.，和Markovitch，S.使用基于维基百科的显式语义分析计算语义Gerz ， D.;Vuli c´ ， I.; Hill ， F.; Reichart ， R.;和Korhonen，A. 2016年。Simverb-3500：一个大规模的动词相似度评价集。arXiv预印本arXiv：1608.00869。Halawi，G.; Dror，G.; Gabrilovich，E.; Koren，Y. 2012.限制条件下词相关性的大规模学习第 18 届 ACMSIGKDD 国际知识发现和数据挖掘会议论文集，1406ACM。Hill，F.; Reichart，R.;和Korhonen ，A. 2015. Simlex-999 ：使用（真实）相似性估计评估语义模型。Computational Linguistics41（4）：665-695.Hochreiter，S.，和Schmidhuber，J. 1997.长短期记忆。Neural computation9（8）：1735-1780.Huang、黄毛菊E. H.; Socher，R.;曼宁角D.;和Ng，A.纽约2012.通过全局上下文和多个单词原型改进单词表示。在计算语言学协会第50届年会的会议记录中：长文-第1卷，873-882。计算语言学协会。Iacobacci，I.;Pilehvar，M.T.; 和Navigli ，R.2015年。Sensem-床：学习单词和关系相似性的意义嵌入。在第53届计算语言学协会年会和第7届自然语言处理国际联合会议的会议录（第1卷：Long Papers），第1卷，95-105。Jauhar，S. K.; Dyer，C.;和Hovy，E. 2015.语义向量空间模型的基于本体的多意义表示学习。在2015年计算语言学协会北美分会会议录中：人类语言技术，683-693。Luong，M.- T.; Socher，R.; Manning，C.学位2013年a。更好的词表示与递归神经网络的形态。在CoNLL。Luong，T.; Socher，R.; Manning，C. 2013年b。用递归神经网络进行形态学的更好的单词表示第十七届计算机自然语言学习会议论文集。McCann ，B.; Bradbury，J.; Xiong ，C.;和Socher，R.2017.在翻译中学习：语境化的词向量。神经信息处理系统的进展，6297- 6308。Mikolov，T.; Chen，K.; Corrado，G.; Dean，J. 2013年a。向量空间中词表示的有效估计arXiv预印本arXiv：1301.3781。Mikolov ， T.; Sutskever ， I.; Chen ， K.; 科拉多湾 S.;Dean，J. 2013年b。单词和短语的分布式表示及其组合性。神经信息处理系统的进展，3111Miller，G. A.和Charles，W.例如1991.语义相似性的上下文相关性。语言和认知过程6（1）：1-28.Miller，G.上午1995. Wordnet：英语词汇数据库。Communications of the ACM38（11）：39-41.Neelakantan，A.;Shankar，J.;Passos，A.;还有麦卡勒姆上午 2015. 向量空间中每个字多个嵌入的有效非参数估计。arXiv预印本arXiv：1504.06654。Pennington，J.; Socher，R.; Manning，C. 2014. Glove：单词表示的全局向量。在2014年自然语言处理经验方法会议（EMNLP）的会议记录中，1532Peters，M. E.; Neumann，M.; Iyyer，M.; Gardner，M.; 克拉克C.; Lee，K.;和Zettlemoyer，L. 2018.深层语境化的词表征。在NAACL的中。Reisinger，J.，和Mooney，R. J. 2010.词义的多原型向量空间模型。在人类语言技术中：2010年计算语言学协会北美分会年会，109-117。计算语言学协会。Rothe，S.，和Schütze，H. 2015年。Autoe extend：将单词嵌入扩展为同义词集和词素的嵌入。arXiv预印本arXiv：1507.01127。Rubenstein，H.，和Goodenough，J.芽孢 1965. 同义关系的语境相关物。 Communications of the ACM8（10）：627-633.Socher，R.;Perelygin，A.;Wu，J.;Chuang，J.;曼宁梭D.; Ng，A.;和Potts，C. 2013. 情感树库上语义组合性的递归深度模型2013年自然语言处理经验方法会议论文集，1631Szumlanski，S.; Gomez，F.;和Sims，V.克雷2013.一组新的语义相关性度量标准在计算语言学协会第51届年会的会议记录中（第2卷：Short Papers），第2卷，890-895。Taghipour，K.，和Ng，H.没有2015.一百万个词义标注实例，用于词义消歧和归纳。第十九届计算机自然语言学习会议论文集，338Tian，F.;Dai，H.;Bian，J.;Gao，B.;Zhang，R.;Chen，E.;和Liu，T.-纽约2014.学习多原型词嵌入的概率模型。在COLING 2014会议录中，第25届计算语言学国际会议：技术论文，151-160。Voorhees，E.先生 2001. trec问答跟踪。自然语言工程7（4）：361-378.Wu，Z.，和Giles，C.法

下载后可阅读完整内容，剩余1页未读，立即下载