改进单词表示学习方法实现有效语义相似度计算

39 浏览量更新于2023-12-01 收藏 3.07MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

用于有效语义相似度计算的词表示学习方法的改进朱利安·蒂西耶引用此版本：朱利安·蒂西尔改进学习单词表示的方法，以实现有效的语义相似计算。人工智能[cs.AI]。里昂大学，2020年。英语NNT：2020 LYSES 008。电话：03184803HAL Id：tel-03184803https://theses.hal.science/tel-031848032021年3月29日提交HAL是一个多学科的开放获取档案馆，用于存放和传播科学研究文件，无论它们是否已这些文件可能来自法国或国外的教学和研究机构，或来自公共或私人研究中心。L’archive ouverte pluridisciplinaireTHES DE DOCTORAT DEopereeauseindelEcole DoctoraleED SIS488Science，Ing′enierieetSant′eSp'ecialit'edeoctorat：Informatique这是JulienTissier给你的2020年5月4日改进学习单词表示的方法以实现有效的语义相似度计算陪审团的意见如下：Massih-Reza AMINIProfesseur我们要去的是大贵族特别报告员Julien VELCINProfesseurUniversit'edeLyon2特别报告员Elisa FROMONT埃切瑟尔Universit'edeRennes1考试Laure SOULIERMaitredeConf'erencesSorbonneUniversit'e考试Christophe GRAVIER我是一个骗子你是唯一一个Directeurdet`eseAmaury HABRARDProfesseur我们要去圣艾蒂安Co-directeurdet`ese内容导言. 5一.背景.91词汇表111.1一.导言. 111.2从文字到数字121.3词向量141.4词嵌入的评估171.5结论242 用于单词嵌入的2.1一.导言. 272.2 监督学习和无监督学习282.3 训练机器学习模型312.4 词嵌入学习中的332.5 结论38第二章学习3 将语言信息编码到词嵌入中413.1一、导言. 413.2 学习单词嵌入423.3 利用外部资源改进词嵌入49...........................................................................................3.4 上下文单词表示493.5 概述和回顾3.6 结论564 减少代表性594.1导言. 594.2 减小嵌入矩阵60的大小4.3 将字嵌入编码为整数向量654.4 结论69第三章学习单词嵌入715 使用词典735.1导言. 735.2 从字典中提取语言信息7535.3 使用强对和弱对学习单词嵌入765.4 实验设置和评估任务785.5结果和模型分析825.6 结论896 Word Embeddings的二进制化916.1一、导言. 916.2 用自动编码器926.3 实验装置956.4 结果和二进制向量分析986.5 结论106结论与展望107出版物111发布软件113图115表117参考书目119介绍自然语言处理（NLP）是人工智能的一个分支，旨在使机器能够处理和理解人类语言中的信息，以解决一些特定的任务，如翻译文档或自动编写市场数据报告在本论文的背景下，我们专注于文本信息，它可以在网页，书籍，通信应用程序等中找到。随着互联网的民主化，书面和共享的文本信息的数量从未如此重要。例如，每秒1，发布近9，000条推文2，发送近300万封电子邮件。能够处理大量数据以提取有意义的信息不再是手动实现的，因此，在过去几年中，自然语言处理模型的发展迅速引起了人们的兴趣。这些模型已经变得越来越复杂，以解决越来越困难的任务，如自生成对话系统（聊天机器人）或个人助理（Siri，Alexa等）。与人类不同，这些模型并不直接处理单词来解决给定的任务。大多数NLP模型都基于机器学习（人工智能的一个子领域）模型，这些模型通常使用向量作为数据的表示，以便应用一些算法并解决任务。因此，在解决一个任务之前，NLP模型的一个常见的初步步骤是将文本信息中的元素表示为矢量表示。在这篇论文中，我们感兴趣的是用于生成文本信息的矢量表示的方法，更具体地说，是词的表示，因为它们是人们可以在文本中找到的最基本的单位。这些单词表示称为单词嵌入，通常表示为一个值数组然后在下游NLP模型中使用词嵌入词嵌入中的值必须被设置为反映词的语言属性以及它们之间的关系。事实上，它们是下游模型为了解决任务而获得的主要信息来源如果没有编码到词嵌入中的语言信息，模型将没有任何知识来知道如何使用词向量并给出给定任务的预期答案或正确预测。第一个工作在词嵌入手动创建的词向量，通过使用特定的语言属性的话，由语言专家生成然而，当要嵌入的单词数量达到数百万的数量级时，这些方法是不可扩展的因此，为了克服这个缺点，已经开发了一些方法来自动学习词嵌入。它们通常基于文本中单词出现的统计数据来学习传达语言信息的单词表征。这些方法大多是无监督的：没有任何线索或提示给该方法，以知道哪些语言信息应该编码到嵌入中，或者哪些词向量应该相关。1截至2020年3月，根据https://www.internetlivestats.com/one-second/。2推文是发布在网站https://www.twitter.com上的短消息（最多280个字符）。56介绍在过去的十年中，已经创建了许多不同的方法来学习捕获语言信息的单词嵌入，以便用于下游NLP模型来解决任务。在这些方法中，可以观察到两个主要局限性：？大多数方法都是通过从Web上提取的大型训练文本中的统计数据来学习单词嵌入。对于大多数人来说，这些文本是通用的，不包含许多特定的语言信息，因此这些方法不会将其捕获到？随着解决任务变得越来越困难，解决它们所需的语言知识也会增加，学习将这些额外知识编码到词嵌入中的方法的复杂性和规模也会增加。随着在智能手机等低资源设备上运行的NLP应用程序的民主化，这些复杂和大型单词表示模型无法在这些设备上使用。当前词嵌入的这两个限制是互补的：如果更多的语言信息被编码到具有其他信息源的词向量中，则表示将变得更大，并且将无法在低资源设备上运行。另一方面，如果通过移除它们的一些值来减少词向量，以便能够在低资源设备上运行，则它们编码的信息量也会减少。在这篇论文中提出的贡献解决这些限制之一贡献本文提出了两个贡献，学习词嵌入解决当前词嵌入的两个上述限制第一个贡献是一个新的方法，使用词汇字典提取词之间的语义关系，并在一个模型中，公司这些额外的信息来学习词嵌入。从词典中提取信息的过程是基于词在其词典定义中的共现，并且是完全自动的与其他常见的词嵌入学习方法相比，使用该方法学习的词嵌入在词语义相似度任务中表现出显着的改进这第一个贡献已被接受，并在EMNLP 2017会议上提出[Tissier etal.，2017年]。第二个贡献是一种将常用词嵌入（通常使用实值来编码信息）转换为二进制词向量的方法二进制向量在内存中比实值向量小得多（小30倍以上），并且具有加速向量运算的优势，这是低资源设备上下游模型中需要使用的两个主要特性这第二个贡献已被接受，并在AAAI 2019会议上提出[Tissier et al.，2 0 1 9 年]。纲要本论文分为三个主要部分：第一章和第二章介绍了本文使用的主要概念和概念;第三章和第四章概述了现有的学习词嵌入和减少表示大小的方法;第五章和第六章介绍了本文的两个贡献。第一章介绍了本文所用到的主要概念，其中最重要的是词嵌入的定义。它还详细介绍了评估词嵌入质量的任务，这些任务在贡献的章节（第5章和第6章）中使用。第二介绍了机器学习的主要概念：监督学习、非监督学习和半监督学习。它还解释了机器学习如何导言. 7模型从数据中学习，并提出了两个模型（神经网络和自动编码器），这是常用的词嵌入文献。第3是对现有的最常见的学习单词嵌入的方法的概述它详细介绍了不同的模型，从最早的词嵌入到最新的，正如我们之前所说的，复杂而庞大的模型。本章中介绍的一些方法将在第5中使用，以比较通过第一贡献模型学习的词嵌入的性能第4章概述了现有的方法，以减少向量表示的大小，使它们可以在内存中更小或加速向量计算。本章中介绍的一些方法将在第6中使用，以比较通过第二贡献模型学习的二进制字向量的性能第五章介绍了本文的第一个贡献。它详细介绍了如何从单词的字典定义中提取额外的语义信息，以及如何使用这些信息来学习语义更丰富的单词嵌入。一些任务，如单词语义相似性或文档分类，用于评估这些单词表示的质量及其在下游模型中的性能。第六介绍了本文的第二个贡献它详细介绍了用于将学习的单词嵌入转换为任何大小的二进制单词向量的模型及其架构执行几个评估来测量这些二进制向量的质量，并执行一个额外的任务来评估二进制向量的语义相似性计算的计算效益。8介绍第一背景9第1单词表示法1.1介绍语言是一个概念，允许一个人表达某种意义和交流。在这篇论文中，我们将考虑可以通过语篇来表达的语言文本可以被看作是一个简单的实体：一系列字母、数字或符号。但是，为了处理文本并能够创建可以处理它们的算法，我们需要定义一些术语和概念。让我们来定义什么是文本的主要组成部分。在文本中可以找到的第一个单位是由词的概念定义的。定义1.1（一个词）。设a是一个有限字母表，表示一个非空的有限符号集。一个词是一个有限的符号序列，从符号，携带一个意义。在这篇论文中，我们只对英语等西方语言的文本感兴趣任何进一步提到一个词将指一系列的字母（来自罗马字母表），数字或符号（如标点符号，如破折号“-”），这意味然后，我们可以把单词组合成句子。定义1.2（一句话）。句子是由空格或标点符号分隔的单词序列。一个句子的第一个单词以一个字母开头，句子的最后一个单词后面跟着一个句号（.），一个问号（？）或感叹号（！）。然后句子可以被组合成一个文本。定义1.3（案文）。语篇是句子的序列。处理文本时的另一个重要概念是词汇。定义1.4（词汇表）。语篇词汇是语篇中出现的所有独特词汇的集合。文本的长度不应与其词汇量混淆。事实上，如果一个词在一篇文章中出现了几次，它在词汇表中只出现一次。因此，文本的长度通常大于其词汇量。让我们举两个简短的例子来说明这一点。表1.1列出了两篇短文的词汇表。？文本1的词汇量为17个单词，但文本长度为23个单词。？文本2的词汇量为17个单词，但文本长度为20个单词。1112单词表示第1文本词汇1将牛奶加入面粉和鸡蛋中把牛奶加到面粉里，和混合它。不要混合太快，以避免鸡蛋，准备，混合，它，做，不，块的准备。太，迅速，避免，肿块，在2利物浦队在决赛中战胜了托特纳姆热刺队。利物浦在决赛中获胜，萨拉赫在第1分钟进球，奥里吉在第87分钟攻入热刺一分钟，还有，奥里吉，另一个，目标，第87次表1.1：短文及其词汇的例子。当我们想谈论文本的长度时，我们通常使用术语“token”而不是术语“word”。例如，我们可以说文本1包含23个标记（因为它的文本长度是23个单词）。在自然语言处理（NLP）领域，最终目标通常是解决给定的任务。这包括例如文本分类，其中包括找到文本的正确类别。另一项任务是信息检索，其重点是提取与问题最相关的正确句子或文档。为了展示如何使用文本的词汇来解决给定的任务，让我们举一个文本分类任务的在这个任务中，找到文本的正确类别的一种简单方法是查看其标记或其词汇表的内容，并将具有最大数量的特定单词的类别分配给类别（例如，表1.1中文本2的单词“won”，“scored”和“goal”可能表明文本是关于体育的然而，很难仅仅根据词汇来比较两篇文章有些词是不同的，但有相同的含义，所以两个文本可以有完全不同的词汇，但仍然讨论相同的主题或具有相同的信息。信息检索也是如此，因为一个句子可以是一个问题的完美答案，因此，虽然标记和词汇是文本的本质，但它们不足以表示文本的语义信息或处理文档的内容。为了解决这个问题，我们需要额外的概念或表示，可以用来处理文本或文档。下一节介绍了一些在NLP文献中常用的概念1.2从文字到数字表达在文本的词汇表中，每个单词只出现一次，即使它在文本中多次如果一个文本包含20倍的单词“football”，而另一个文本只包含一次单词“football”，那么仅仅通过查看它们的词汇表是无法知道哪个文本最能说明足球的，因为两个文本词汇表都只出现一次这个问题的一个解决方案是词袋（BoW）表示[Lang，1995，Joachims，1997]。定义1.5（词袋）。文本的词袋表示是其中所有唯一单词的集合，以及每个单词的相关出现次数。对于表1.1的两个文本，它们的词袋是：？文本1：{添加：1，的：3，牛奶：1，到：2，面粉：1，和：2，鸡蛋：1，准备：2，混合：2，它：1，做：1，不：1，太：1，快：1，避免：1，肿块：1，在：1}从文字到数字表达132211？文本二：{利物浦：1，赢了：1，2，决赛：1，对阵：1，托特纳姆：1，萨拉赫：1，得分：2，后：1，1：1，分钟：2，和：1，原创：1，另一个：1，目标：1，在：1，第87：1}使用词袋表示，可以判断在使用相同单词的两个文本中，是否包含与主题相关的更多术语但解决这个问题也引入了另一个问题。在一篇文章中，大部分的词是不相关的理解它的主题。例如，在文本2中，单词而且，如果一个词出现在很多文本中，那么知道一个文本的主题很可能是没有区别的。例如，文本2中的单词“minute”也可以在其他烹饪食谱中找到（这是文本1的主题），因此该单词不指示区分两个不同的主题。考虑到不太重要的单词通常比更具体的单词更频繁（经验表明，文本中单词的频率遵循齐普夫这些值需要衡量一个术语在文本中的重要性，也需要衡量一组文本之间的重要性在所有文本中频繁出现的单词应该具有较小的值，因为它们没有区分性。另一方面，频率较低的词应该具有较高的价值，因为它们更好地表征了文本。一种解决方案是用TF-IDF值替换出现次数。定义1.6（TF-IDF）。单词的TF-IDF是一个统计值，它表示一个单词在一组文本中的重要性。其定义为：NTF-IDF（word，text）=tfword，text×log（D词）（1.1）其中tfword，text是文本中单词出现的次数，N是文本的总数，Dword是包含单词的文本的数量。同样的短信在表1.1中，我们有：？TF -IDF（“the”，Text 1）= 3 × log（2）= 0？TF-IDF（“the”，Text 2）= 2 × log（2）= 0？TF-IDF（“牛奶”，文本1）=1×log（2）= 0.693？TF-IDF（“评分”，文本2）=2×log（2）= 1.39既然我们已经介绍了TF-IDF的概念，我们就可以根据每个文档包含的单词和每个单词的重要性来这种类型的表示已被证明对信息检索有用[Ramos等人，2003]或文献分类[Zhang等人，2011年]。然而，这种表达方式有一些严重的局限性：1. 为了计算两个给定文本的相似性或找到BoW表示中最具体的单词，必须遍历每个元素并比较单词或它们的值。当词汇量达到数千的数量级并且文本的数量达到数百万时，这就成了一个问题。2. 这些表示可以视为手动生成的。虽然找到唯一单词并对它们的出现次数进行计数的过程可以自动化，但是用于计算BoW表示中的权重（即，值）的定义是由人定义的，这意味着需要知道什么值对于处理文本有用14单词表示第13. BoW表示对单词的语义和句法属性没有任何理解事实上，使用BoW表示，没有办法知道“car”和“vehicle”是相关的为了克服这些局限性，一个解决方案是找到另一种方法来表示文本，句子和单词。此外，随着计算机功能的不断增强和新模型的不断发展，这些表示应该具有一些属性来执行计算。因此，这就需要一种语言的数字表示，它能够编码其中的语言信息。1.3词向量在经典的机器学习中（这个概念将在第2章中更详细地定义），标准的方法是将信息编码为数字向量。一个向量可以被看作是一个数值数组。例如，如果一个人33岁，有2辆车，住在1000平方英尺的房子里，那么它可以用向量表示：[33， 2， 1000]。向量中的值是这个人的特征。根据这个想法，NLP科学家提出将语言中的单词也表示为值数组值数组的概念来自数学背景，所以让我们首先定义一些我们将在这篇论文中使用的概念定义1.7（向量空间，简化版）。R上的向量空间X是向量的集合和两个具有特定性质的运算的集合，这些运算可以用于向量：1. 向量加法：将两个向量u，v∈ X相加产生另一个向量，该向量也在X中。2. 标量乘法：向量u∈ X与标量λ∈R相乘产生另一个也属于X的向量。向量空间是一个通用的概念，它可以由不同类型的对象组成在本论文的其余部分，我们将考虑向量空间，要么是Rd或它的子空间。另一个重要的概念是向量的概念，更准确地说，d维向量。定义1.8（矢量）。向量是向量空间X的元素。在这篇论文中，我们将考虑Rd的向量（或来自X <$Rd的向量）。在这种情况下，我们说v∈Rd是d维向量，因为它由d个值组成，每个值都属于R。从实际的角度来看，我们将d维向量的值写为[v[1]，v[2]，.， v[d]]。在经典的机器学习中，向量被用作数据的数值表示在上面的小例子中，向量[33，2，1000]∈R3是人的数字表示在自然语言处理中，问题是找到一个编码语言信息的语言的数字正如我们在1.1节中所看到的，文本中最小的意义单位是单词，所以首先我们需要为词汇表中的每个单词找到一个数字表示。找到这种表示的一种简单方法是将one-hot向量与每个单词相关联。在表1 - 2中，我们为简化词汇表（来自表1 - 1）中的每个单词关联了一个独热向量。在独热向量中，除了一个值等于1之外，所有值都是0。独热向量的长度与词汇表的大小相同，这允许通过将1放置在特定于每个单词的位置来将不同于其他向量的向量与每个单词相词向量15Σ一字一热矢量1添加{1，0，0，0，0，0，0，0，0，0}2{ 0，1，0，0，0，0，0，0，0，0}3牛奶{0，0，1，0，0，0，0，0，0，0}4到{0，0，0，1，0，0，0，0，0，0}5面粉{0，0，0，0，1，0，0，0，0，0}6和{0，0，0，0，0，1，0，0，0，0}7鸡蛋{0，0，0，0，0，0，1，0，0，0}8准备{0，0，0，0，0，0，0，1，0，0}9混合{0，0，0，0，0，0，0，0，1，0}10 it{ 0，0，0，0，0，0，0，0，0，1}表1.2：与小词汇表（10个单词）中的每个单词相关联的独热向量的示例向量有10个维度，因为词汇表由10个单词组成。更正式地说，独热向量定义如下。定义1.9（独热向量）。d维的独热向量是向量空间Bd<$Rd的元素v，其中B={ 0，1}并且：Dv[i]= 1（1.2）i=1如前所述，维度d被设置为等于词汇表的大小。在本论文的其余部分，我们将编写onehot（k）来识别第k个值等于1的独热向量。然后，我们可以根据词汇表中的每个单词在该词汇表中的位置将其关联到一个唯一的向量例如，在表1.2中，单词因此，每个单词将具有不同的向量，因为如果i/=j，则onehot（i）/=onehot（j）。BoW表示有一些局限性，其中之一是用它们的BoW表示来计算两个不同文本的相似度并不事实上，两个文本的BoW中的单词不一定相同，因此必须逐个比较单词才能知道哪些是共同的。当文档的单词或句子或文档本身用向量空间的元素表示时，如作为布尔向量空间的元素的独热向量，向量空间的数学性质允许使用向量空间上定义的向量运算和相似性函数。向量空间的数学性质解决了BoW表示提出的一些问题，主要是计算两个表示之间的距离以比较它们（可以用定义在向量空间上的函数计算，如Rd的欧几里得距离）。此外，独热向量还解决了手工向量值的BoW表示问题，如TF-IDF，因为独热向量中的值独立于单词的属性，如其在文本中出现的次数然而，独热向量并不能解决语言信息的编码问题事实上，没有办法通过查看它们的独热向量表示来判断两个单词是否相关，因为值1的位置不取决于单词的属性，而是取决于它们在词汇表中的位置，这并不代表它们的语言属性。此外，独热向量的长度也可能成为一个问题，因为它们的长度应该与词汇表的大小相同，这可能是数百万的数量级16单词表示第1牛奶→0.81.3面粉→1.01.9肿块→0.71.7利物浦→-0.60.1托特纳姆→-0.40.6目标→-0.2-0.1一个比one-hot向量更好的词的数字表示是将每个词与实值向量相关联，即将其与向量v ∈ Rd相关联。这就引入了词嵌入的概念。定义1.10（词嵌入）。词w的嵌入是向量vw∈Rd其中d是嵌入的维数。嵌入矩阵M∈ R| V| ×d（其中|是词汇表的大小V）是由词汇表中所有单词的堆叠嵌入组成的矩阵。|is the size of thevocabulary V) is a matrix composed of the stacked up embeddings of all the words ofthe vocabulary.这种实值数值表示解决了BoW表示的三个问题中的前两个：（i）可用于计算向量运算（如相似性和距离计算）的表示;（ii）它不需要定义手工表达式然而，对于这三个问题中的最后一个（编码语言信息），我们需要添加更多的约束。事实上，如果每个单词的嵌入值都是随机选择的，那么就没有办法判断两个单词是否相关，因为它们的向量之间的距离也是随机的。因此，嵌入中的值必须仔细设计，以反映单词的语言属性例如，NLP文献中的常见实践[Mikolov et al.，2013 a，Pen-nington等人，2014]是设置向量的值，使得相关或具有相似含义的词也具有相似的词嵌入。在图1.1a中，2维的词嵌入（即 2个值的向量）报告了表1.1的文本1和文本2中词汇表的六个单词。图1.1b中的二维平面上绘制了嵌入，以及它们所代表的相应单词。“面粉”和“牛奶”这两个词的意思不同，但它们属于同一语义场（烹饪配料），因此它们的值相似。单词“lumps”也具有类似的值，因为它与单词“flour”相关。然而，单词单词“goal”更接近两个城市（“goal”和“Liverpool”的向量之间的欧几里得距离为0。447;“goal”和“flour”的向量之间的距离是2。332）因为它更多的是与两个城市的足球队有关，而不是与一些烹饪食材有关。(a) 某些词的二维词嵌入值。(b) 一些词的词嵌入的2D平面上的视觉表示。图1.1：6个单词的二维单词嵌入的向量的值已经被选择，使得相关的词具有相似的值，并且因此在2D平面表示中接近词嵌入的评价17在本节中，我们介绍了用NLP模型中常用的数值表示对单词进行编码的基本方法然而，存在其他方式来对单词进行编码，如使用单词聚类表示[Bekkerman等人，2003]或使用n-gram特征向量[Cavnar，1995]。我们已经看到，词嵌入具有编码语言信息的能力，这是独热向量表示的关键不足。其他类型的文本表示（如句子或文档表示）可以通过连接或平均组成它的单词的嵌入来计算。词嵌入所属的向量空间Rd具有一些数学性质，允许执行向量运算，如求和或计算两个向量之间的距离。然而，向量空间Rd没有有限的大小，每个词嵌入的可能值的数量是无限的。这就提出了另一个问题：在几个词嵌入表示中，如何比较它们并选择最适合我们最终目标的表示，即解决NLP任务？1.4词嵌入NLP的最终目标是解决文本分类、机器翻译或信息检索等任务学习单词嵌入不是最终目标的一部分，而是获得语义保留单词表示的中间步骤，可以用来解决下游NLP任务。事实上，如果表示能够更好地将语言信息捕获到词嵌入中，则使用它们来解决任务的下游NLP模型可以获得更多的知识来进行预测，这会提高任务的性能[Kim et al.，2016年，Bojanowski等人，2017年]。词嵌入可以在创建时进行评估，也可以在用于其他模型时进行评估，这将评估分为两个不同的类别：1. 有多少语言信息被编码到词嵌入中？这种评估仅取决于嵌入中的值，而不取决于它们在下游NLP任务中的使用我们称之为内在评价。2. 词嵌入在解决NLP任务时有多大帮助？我们称之为外部评估。虽然这两种类型的评价是相关的，但其中一种评价的词嵌入性能Chiu等人[Chiu等人，2016]表明，对于大多数人来说，用于内在评估的数据集的分数与外在评估任务的分数呈负相关，这意味着需要两种类型的评估来评估词嵌入。在本节中，我们介绍了用于1.4.2小节中的内在评估和1.4.3小节中的外在评估的最常见任务和数据集。这些任务中的大多数都需要计算向量对之间的相似性或距离，因此让我们首先在1.4.1小节中定义文献中使用的主要相似性或距离函数1.4.1向量的相似性和距离函数余弦相似度余弦相似性是在Rd的实值向量上计算的。它是自然语言处理模型中最常用的相似性函数，也是本文中使用最多的一种。18单词表示第1Σ×..，.，v2[i]定义1.11（余弦相似性）。两个d维向量u，v∈Rd之间的余弦相似度定义为：u· vDu[i]v[i]i=1余弦（u，v）==乌乌·扎诺夫（一、三）Jaccard相似性和Jaccard距离Jaccard相似性是在来自Bd的二进制向量上计算的，并且具有0和1之间的值定义1.12（Jaccard相似性）。两个二进制d维向量u，v∈Bd之间的Jaccard相似性定义为：贾卡德·西姆男性11例（u，v）=M01+M10+M11（1.4）其中M11是在u和v中同时设置为1的维数，M01（分别为M10）是设置为0的维数（分别为1)在U中，并设置为1（分别0)在v. Jaccard距离是密切相关的，定义为：Jaccarddist（u，v）= 1− Jaccardsim（u，v）（1.5）欧氏距离欧氏距离不是相似性函数，而是距离函数。它测量两个向量有多近（或多远）定义1.13（欧几里得距离）。两个d维向量u，v∈Rd之间的欧几里得距离定义为：Euclideandist（u，v）=di=1（u[i]−v[i]）2（1.6）L1距离L1距离也是一个距离函数，类似于欧几里德距离.它可以应用于实值或二进制向量。然而，这个函数是不可微的，这使得它很难在NLP模型中使用。定义1.14（L1距离）。 L1两个d维向量之间的距离，u，v∈Rd或u，v∈Bd定义为：L1（u，v）=di=1|（1.7）|(1.7)1.4.2内在评价通过前面小节中描述的定义的相似性和距离函数，可以在固有评估任务中评估词嵌入，以测量有多少语言信息被编码到向量中。现有的两个主要的内在评价任务是词的语义相似度和词的类比。Σu×ΣDi=1Di=12[i].词嵌入的评价19词语语义相似度如前一节所述，词嵌入应该对语言信息进行编码。具有相似含义的单词应该具有接近的向量表示。单词语义相似性任务评估嵌入如何反映单词的语义它基于由成对的单词组成的数据集。存在许多数据集，最常用的是WordSim-353 [Finkelstein等人，2001]和稀有词（RW）[Luong等人，2013年]。更广泛的可用数据集列表将在本论文的贡献（第5章和第6章）中列出，它们用于评估贡献中提出的模型所学习的单词嵌入。对于数据集的每一对单词，一些人类注释者被要求在0到10的范围内对单词来自所有注释者的分数通过注释者间一致性阈值进行验证，然后对每对进行平均在表1.3中，报告了这种配对和分数的一些示例人类得分马拉多纳月problem货币表1.3：来自WordSim-353数据集的由人类注释者在0到10的范围内评定的词对及其相似性分数的示例[Finkelstein等人，2 0 0 1 年]。单词嵌入马拉多纳[0.73、0.55,0.12,0.33]足球[0.62、0.42,0.07,0.79]月[0.01、-0.22,0.76,-0.94]酒店[0.25、0.62,0.37,0.23]问题[-0.87，-0.83,-0.97,0.89]机场[0.22、-0.18,-0.19,-0.08]钱【-0.09，0.85,0.20,0.35]现金[0.74、0.72,-0.30,0.26](a) 与WordSim-353数据集的一些单词相关联的向量值的示例[Finkelstein等人，2001年]。对单词人体评分余弦相似度马拉多纳8.620.892月1.81-0.070问题2.380.114货币9.150.551(b) 单词对及其余弦相似性分数的示例与其各自嵌入之间的余弦相似性计算表1.4：用每对单词的相应嵌入的向量值（表1.4a）计算的余弦相似性得分（表1.4b）

下载后可阅读完整内容，剩余1页未读，立即下载