动态嵌入：捕捉语言变化的方法

141 浏览量更新于2023-10-16 收藏 13.86MB PDF 举报

动态建模

概率建模

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

are used changes over the course of the collection. The goal ofdynamic embeddings is to characterize those changes.Figure 1 illustrates the approach. It shows the changing represen-tation of intelligence in two corpora, the collection of computerscience abstracts from the ACM 1951–2014 and the U.S. Senatespeeches 1858–2009. On the y-axis is “meaning,” a proxy for thedynamic representation of the word; in both corpora, its represen-tation changes dramatically over the years. To understand whereit is located, the plots also show similar words (according to theirchanging representations) at various points. Loosely, in the ACMcorpus intelligence changes from government intelligence to cog-nitive intelligence to artificial intelligence; in the Congressionalrecord intelligence changes from psychological intelligence togovernment intelligence. Section 3 gives other examples from thesecorpora, such as for the terms iraq, data, and computer.In more detail, a word embedding uses representation vectors toparameterize the conditional probabilities of words in the contextof other words. Dynamic embeddings divide the documents intotime slices, e.g., one per year, and cast the embedding vector as alatent variable that drifts via a Gaussian random walk. When fit todata, the dynamic embeddings capture how the representation ofeach word drifts from slice to slice.Section 2 describes dynamic embeddings and how to fit them.Section 3 studies this approach on three datasets: 9 years of ArXivmachine learning papers (2007–2015), 64 years of computer scienceabstracts (1951–2014), and 151 years of U.S. Senate speeches (1858–2009). Dynamic embeddings give better predictive performancethan existing approaches and provide an interesting exploratorywindow into how language changes.Related work. Language is known to evolve [1, 19] and therehave been several lines of research around capturing semantic shifts.Mihalcea and Nastase [23] and Tang et al. [38] detect semanticchanges of words using features such as part-of-speech tags andentropy. Sagi et al. [37] and Basile et al. [5] employ latent semanticanalysis and temporal semantic indexing for quantifying changesin meaning.Most closely related to our work are methods for dynamic em-beddings [15, 18, 20]. These methods train a separate embedding foreach time slice of the data. While interesting, this requires enoughdata in each time slice such that a high quality embedding can betrained for each. Further, because each time slice is trained inde-pendently, the dimensions of the embeddings are not comparableacross time; they must use initialization [18] or ad-hoc alignmenttechniques [15, 20, 48] to stitch them together.In contrast, the representations of our model for dynamic embed-dings are sequential latent variables. This naturally accommodatestime slices with sparse data and assures that the dimensions of theembeddings are connected across time. In Section 3, we show thatour method provides quantitative improvements over methods thatfit each slice independently.10030语言演化的动态嵌入0MajaRudolph哥伦比亚大学maja@cs.columbia.edu0大卫∙布莱哥哥伦比亚大学david.blei@columbia.edu0摘要0词嵌入是一种用于无监督语言分析的强大方法。最近，Rudolph等人[35]开发了指数族嵌入，将词嵌入置于概率框架中。在这里，我们开发了动态嵌入，基于指数族嵌入来捕捉单词含义随时间变化的情况。我们使用动态嵌入来分析三个大型历史文本集合：1858年至2009年的美国参议院演讲，1951年至2014年的计算机科学ACM摘要历史，以及2007年至2015年的ArXiv上的机器学习论文。我们发现动态嵌入提供了比传统嵌入更好的拟合效果，并捕捉了语言变化的有趣模式。0关键词0词嵌入，指数族嵌入，概率建模，动态建模，语义变化0ACM参考格式：Maja Rudolph和DavidBlei。2018年。语言演化的动态嵌入。在WWW2018：2018年万维网会议，2018年4月23日至27日，法国里昂。ACM，美国纽约，9页。https://doi.org/10.1145/3178876.318599901 引言0词嵌入是一组用于捕捉语言中潜在语义结构的无监督学习方法。嵌入方法分析文本数据以学习词汇的分布式表示。学习到的表示对于推理单词的用法和含义很有用[16,36]。借助大数据集和神经网络的方法，词嵌入已成为分析语言的重要工具[3, 6, 21, 24–26, 33,42]。最近，Rudolph等人[35]开发了指数族嵌入。指数族嵌入提取了嵌入问题的关键假设，将其推广到多种类型的数据，并将分布式表示视为概率模型中的潜变量。它涵盖了许多现有的嵌入方法，并为学习分布式表示的任务带来了表达丰富的概率建模[7,32]的可能性。在这里，我们使用指数族嵌入来开发动态词嵌入，一种随时间变化的学习分布式表示的方法。动态嵌入分析长期运行的文本，例如跨越多年的文档，其中单词的用法随着整个集合的变化而变化。动态嵌入的目标是描述这些变化。图1说明了这种方法。它展示了两个语料库中智能的变化表示，即ACM1951-2014的计算机科学摘要集合和1858-2009的美国参议院演讲。y轴表示“含义”，是单词动态表示的代理；在两个语料库中，它的表示随着年份的变化而发生了巨大变化。为了了解它所在的位置，图中还显示了各个时间点上相似的单词（根据它们的变化表示）。大致上，在ACM语料库中，智能从政府情报变为认知智能，再到人工智能；在国会记录中，智能从心理智能变为政府情报。第3节给出了这些语料库中其他术语的示例，例如iraq、data和computer。更详细地说，词嵌入使用表示向量来参数化单词在其他单词上下文中的条件概率。动态嵌入将文档分成时间片段，例如每年一个，将嵌入向量视为漂移的潜变量，通过高斯随机游走进行漂移。当拟合数据时，动态嵌入捕捉每个单词在时间片段之间漂移的方式。第2节描述了动态嵌入及其拟合方法。第3节在三个数据集上研究了这种方法：9年的ArXiv机器学习论文（2007-2015），64年的计算机科学摘要（1951-2014）和151年的美国参议院演讲（1858-2009）。动态嵌入比现有方法提供了更好的预测性能，并提供了一个有趣的探索窗口，了解语言的变化。相关工作。众所周知，语言会演化[1,19]，并且已经有几条研究线路围绕捕捉语义转变展开。Mihalcea和Nastase[23]以及Tang等人[38]使用诸如词性标签和熵等特征来检测单词的语义变化。Sagi等人[37]和Basile等人[5]采用潜在语义分析和时间语义索引来量化含义的变化。与我们的工作最相关的是动态嵌入的方法[15, 18,20]。这些方法为数据的每个时间片段训练一个单独的嵌入。虽然有趣，但这需要足够的数据在每个时间片段中进行训练，以便为每个时间片段训练高质量的嵌入。此外，由于每个时间片段是独立训练的，嵌入的维度在时间上是不可比较的；它们必须使用初始化[18]或特定的对齐技术[15, 20,48]将它们拼接在一起。相比之下，我们模型的动态嵌入表示是顺序潜变量。这自然地适应了具有稀疏数据的时间片段，并确保嵌入的维度在时间上是连通的。在第3节中，我们展示了我们的方法相对于独立拟合每个时间片段的方法提供了定量改进。0本论文发表在知识共享署名4.0国际许可证（CC BY4.0）下。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW2018，2018年4月23日至27日，法国里昂，© 2018IW3C2（国际万维网会议委员会），根据知识共享CC BY 4.0许可证发布。ACM ISBN978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.31859990研讨会：Web内容分析、语义和知识WWW 2018年4月23日至27日，法国里昂10040(a) ACM摘要中的智能（1951年至2014年）0(b) 美国参议院演讲中的智能（1858年至2009年）0图1：智能的动态嵌入显示了该术语在历史ACM摘要（a）和美国参议院演讲（b）的语料库中随着年份的变化。y轴是“含义”，是嵌入向量的一维投影。对于选定的年份，我们列出了具有类似动态嵌入的单词。0我们注意到有两个与我们类似的模型是独立开发的[4,46]。Bamler和Mandt[4]使用Uhlenbeck-Ornstein过程[41]对嵌入和上下文向量进行建模。Yao等人[46]在不同的时间片段上分解了点间互信息(pmi)矩阵。他们的正则化也类似于Uhlenbeck-Ornstein过程。两者都采用了嵌入的矩阵分解视角[21]，而我们的工作则建立在指数族嵌入[35]的基础上，它们是广义的0使用指数族的嵌入。Cotterell等人[10]给出了一个相关的视角，他们表明指数族PCA可以将嵌入广义到高阶张量。另一个相关工作领域是动态主题模型，也用于分析随时间变化的文本数据[8,12,13,27,28,43-45,47]。这类模型用主题来描述文档，主题是词汇的分布，然后允许主题发生变化。与动态嵌入类似，一些动态主题模型0研讨会：Web内容分析、语义和知识WWW 2018年4月23日至27日，法国里昂10050使用高斯随机游走来捕捉底层语言模型的漂移；例如，参见Blei和Lafferty [8]，Wang等人[43]，Gerrish和Blei[13]和Frermann和Lapata[12]。尽管主题模型和词嵌入相关，但它们最终是不同的语言分析方法。主题模型捕捉文档级别的词共现，并关注异质性，即一个文档可以展示多个主题[9]。词嵌入则通过文本中的接近程度来捕捉词的共现，通常关注每个单词周围的小邻域[26]。将动态主题模型和动态词嵌入结合起来是未来研究的一个领域。02 动态嵌入0我们开发了动态嵌入（d-emb），这是一种捕捉数据表示中顺序变化的指数族嵌入（efe）[35]。我们专注于文本数据和伯努利嵌入模型。在本节中，我们回顾了文本的伯努利嵌入，并展示了如何将动态性纳入模型。然后，我们推导了动态嵌入的目标函数，并开发了用于在大规模文本集合上优化它的随机梯度。文本的伯努利嵌入。efe是一个条件模型[2]。它有三个要素：上下文、每个数据点的条件分布和参数共享结构。在文本的efe中，数据是一组文本，一个词汇大小为V的词序列(x1,...,xN)。每个词xi∈{0,1}^V0是一个指示向量（也称为“one-hot”向量）。它在位置i上的词汇项v处有一个非零条目。在efe模型中，每个数据点都有一个上下文。在文本中，每个单词的上下文是它的邻近词；每个单词都是在其之前和之后的单词的条件模型。典型的上下文大小在2到10个单词之间，并且是预先设置的。在这里，我们将建立在伯努利嵌入的基础上，它为指示向量的各个条目提供了一个条件模型x_iv∈{0,1}。让ci是位置i附近的位置集合，让xc_i表示由这些位置索引的数据点的集合。x_iv的条件分布是0x iv | x c i � Bern(p iv)，(1)0其中p iv ∈ (0,1)是伯努利概率。10伯努利嵌入指定了该分布的自然参数，即对数几率η iv = log p iv01−piv，作为词v的表示和位置i的上下文中的词的函数。具体来说，数据中的每个索引(i,v)与两个参数向量相关联，即嵌入向量ρ v ∈RK和上下文向量α v ∈RK。嵌入向量和上下文向量共同形成伯努利分布的自然参数。0η iv = ρ�v��j∈c i �v′α v′x jv′�。(2)0这是嵌入向量ρ v 与围绕位置i的词的上下文向量之间的内积。（因为xj是一个指示向量，所以对词汇的求和选择了适当的词）01多项式嵌入[35]使用一个分类条件分布来建模每个指示向量xi，但这需要昂贵的归一化，即softmax函数。为了提高计算效率，可以用层次softmax[25,29,31]替代softmax，或者采用与噪声对比估计相关的方法[14,30]。伯努利嵌入放松了xi的one-hot约束，在实践中表现良好；它们与负采样[25]有关。0图2：T个时间片段中文本数据的d-emb的图形表示，X(1)，∙ ∙∙，X(T)。每个词项的嵌入向量ρ v随时间演化。上下文向量在所有时间片段中共享。0位置j的上下文向量α。）目标是学习嵌入和上下文向量。参数的索引不依赖于位置i，而只依赖于词v；嵌入在文本中的所有位置上共享。这是Rudolph等人[35]所称的参数共享结构。例如，它确保智能的嵌入向量在任何地方都是相同的。（动态嵌入部分放松了这个限制。）最后，Rudolph等人[35]通过对嵌入和上下文向量施加先验来正则化伯努利嵌入。他们使用带有对角协方差的高斯先验，即ℓ2正则化。没有正则化，拟合伯努利嵌入与其他嵌入技术（如CBOW[24]和负采样[25]）密切相关。但是efe的概率观点，特别是先验和参数共享，使我们能够扩展这个设置以捕捉动态。动态伯努利嵌入（d-emb）将伯努利嵌入扩展到随时间变化的文本数据。每个观测值x iv 与时间片t i相关联，例如观测的年份。上下文向量在文本的所有位置上共享，但嵌入向量仅在时间片内共享。因此，动态嵌入为每个词项ρ(t)v∈RK提供了一系列嵌入，而静态上下文向量有助于确保连续的嵌入在相同的语义空间中。条件似然的自然参数与方程（2）类似，但将嵌入向量ρ v 替换为每个时间片的嵌入向量ρ(t i ) v，0η iv = ρ(t i )�v��j∈c j �v′α v′x jv′�。(3)0Track: Web Content Analysis, Semantics and Knowledge WWW 2018, April 23-27, 2018, Lyon, Francem10060最后，动态嵌入使用高斯随机游走作为嵌入向量的先验，0α v, ρ(0)v�N(0,λ−10I)(4)0ρ(t)v�N(ρ(t−1)v,λ−1I)。(5)0给定数据，这导致每个词项嵌入的平滑变化估计。20图2给出了动态嵌入的图形模型。动态嵌入是一种有条件指定的模型，一般不能保证暗示一致的联合分布。但是动态伯努利嵌入模型二进制数据，因此存在一个联合分布[2]。拟合动态嵌入。计算联合分布是计算上难以处理的。相反，我们使用伪对数似然函数拟合动态嵌入，伪对数似然函数是条件模型常用的目标函数[2]。具体来说，我们用对数先验正则化伪对数似然函数，然后最大化以获得伪最大后验估计。对于动态伯努利嵌入，这个目标函数是对数先验和数据的条件对数似然的和x iv。我们将数据似然分为两部分，非零数据条目的贡献Lpos和零数据条目的贡献L neg，0L(ρ, α) = L pos + L neg + L prior. (6)0似然函数为0L pos =0N0v = 1 xiv logσ(ηiv)0L neg =0N0v = 1 (1 - xiv) log (1 -σ(ηiv)),0其中σ(∙)是sigmoid函数，将自然参数映射到概率。先验为0L prior = log p(α) + log p(ρ),0其中0log p(α) = - λ 00v || αv || 20log p(ρ) = - λ 00v || ρ(0)v || 20- λ0v，t || ρ(t)v -ρ(t-1)v || 2 .0参数ρ和α出现在方程（2）和（3）的自然参数ηiv中，以及对数先验中。随机游走先验惩罚连续的词向量ρ(t-1)v和ρ(t)v，使它们相差太远。它优先选择差异范数较小的参数设置。目标函数中最昂贵的项是Lneg，即零的条件对数似然的贡献。如果我们对零进行子采样，目标函数的计算会更便宜。我们不是对所有不在位置i的单词求和，而是对n个子集求和0因为α和ρ仅在方程（2）中作为内积出现，所以即使只对嵌入ρ进行时间动态建模，也能捕捉到它们的交互随时间的变化。探索α的动态性是未来研究的课题。0算法1：动态嵌入的随机梯度下降。0输入：大小为m t的文本数据X(t)的T个时间片段，上下文大小c，嵌入大小K，负样本数量n，小批量分数数量m，初始学习率η，精度λ，词汇大小V，平滑的一元分布ˆp。对于v =1到V，初始化αv的条目和ρ(t)v的条目（使用均值为零，标准差为0.01的正态分布进行抽样）。对于数据的遍历次数，对于小批量分数m的次数，对于t = 1到T，抽样小批量m t / m连续单词{x(t)1, ∙∙ ∙ , x(t)mt / m}，从每个时间片段X(t)构建0C(t)i =0j ∈ ci0V0v' = 1 αv' xjv'.0对于小批量中的每个文本位置，从ˆp中抽取n个负样本集合S(t)i。结束。通过上升随机梯度更新参数θ = {α, ρ}。0�θ ��0T0m t /m0v = 1 x(t)iv logσ(ρ(t)�vC(t)i)0+0x j ∈ S(t)i0v = 1 (1 - x jv) log (1 -σ(ρ(t)�vC(t)i))0- λ 00v || αv || 2 - λ 00v || ρ(0)v || 20- λ0v，t || ρ(t)v - ρ(t-1)v|| 2 �� 。0结束。结束。我们使用Adagrad[11]来设置速率η。0负样本 S i随机抽取。Mikolov等人[25]将此称为负采样，并建议从ˆp，即将一元分布提高到0.75的幂次进行采样。通过负采样，我们重新定义 Lneg 为0L neg =0N0v ∈ Si log (1 - σ(ηiv)). (7)0这个总和的项较少，减少了零对目标的贡献。从某种意义上说，这会产生偏差——与负样本相关的期望值不等于原始目标值——但是“减少零的权重”可以提高预测准确性[17,22]，并带来显著的计算效益。0跟踪：Web内容分析、语义和知识WWW 2018年4月23日至27日，法国里昂Track: Web Content Analysis, Semantics and KnowledgeWWW 2018, April 23-27, 2018, Lyon, France10070表1：第3节中分析的三个语料库的时间范围和大小。0ArXiv ML ACM 参议院演讲 2007-20151951-2014 1858-20090时间片 9 64 76 时间片大小 1年 1年 2年词汇量 50k 25k25k 单词数 6.5M 21.6M 13.7M0我们使用随机梯度[34]和自适应学习率[11]拟合目标（方程（6）和方程（7））。负样本在每个梯度步骤中重新采样。伪代码在算法1中。为了避免推导方程（6）的梯度，我们在Edward [40]中实现了该算法。Edward基于tensorflow [39]，并使用自动微分。303 实证研究0这个实证研究有两个部分。在定量评估中，我们将动态嵌入与静态嵌入[24, 25,35]进行了基准测试。我们发现，动态嵌入在保持预测条件概率方面优于静态嵌入。此外，动态嵌入的性能也优于在各个时间片上训练的嵌入[15]。在定性评估中，我们使用拟合的动态嵌入提取最多变化的词向量，并可视化它们的动态变化。动态嵌入提供了一个新的窗口，可以了解语言的变化。03.1 数据0我们研究了三个数据集。它们的详细信息总结在表1中。0机器学习论文（2007年-2015年）。该数据集包含在2007年4月至2015年6月期间在ArXiv上发表的所有机器学习论文（标记为“stat.ML”）。我们将每年视为一个时间片。随着时间的推移，关于机器学习的ArXiv论文数量逐年增加。2007年有101篇论文，而2014年有1,573篇论文。0计算机科学摘要（1951年-2014年）。该数据集包含由计算机协会（ACM）于1951年至2014年发表的计算机科学论文的摘要。我们将每年视为一个时间片，这里的数据量也随着年份的增加而增加。1953年只有大约10个摘要，它们的总长度只有471个单词；2009年的摘要总长度超过了2M。0参议院演讲（1858年-2009年）。该数据集包含1858年至2009年中期的所有美国参议院演讲。我们将每2年视为一个时间片。与其他数据集不同，这是口语的转录。它包含许多只在少数时间片中出现的不常见的词语。0预处理。我们将文本转换为小写，并去除所有标点符号。常见的n-gram词组（如unitedstates）被视为一个单词。词汇表包括最常见的25,000个词汇和所有不在词汇表中的词语都被删除。03 代码可在 http://github.com/mariru/dynamic_bernoulli_embeddings 获取0与[25]一样，我们还以概率p = 1 - �删除每个词。0f i )，其中f i是该词的频率。这有效地对频繁词进行了下采样，并加快了训练速度。03.2 定量评估0我们将动态嵌入（d-emb）与时间分段嵌入（t-emb）[15]和静态嵌入（s-emb）[35]进行比较。有许多没有动态性的嵌入技术可以获得相当的性能。对于s-emb，我们研究了伯努利嵌入[35]，它类似于连续词袋（cbow）与负采样[24,25]。对于时间分段嵌入，Hamilton等人[15]在每个时间片上训练了一个单独的嵌入。评估指标。从每个时间片中，80%的单词用于训练。随机抽取10%的单词用于验证，另外10%用于测试。我们通过保留的伯努利概率来评估模型。对于给定的模型，每个保留的位置（验证或测试）与每个词汇项关联一个伯努利概率。在该位置，更好的模型将更高的概率分配给观察到的单词，较低的概率分配给其他单词。这个指标很直观，因为竞争的方法都产生伯努利条件概率（方程（1））。由于我们保留了连续单词的块，通常一个单词及其上下文都被保留。所有方法都需要上下文中的单词来计算条件概率。我们报告 L eval = L pos + 10n L neg ，其中 n 是负样本的数量。通过对 n进行归一化，可以保证度量是平衡的。它同等权重地考虑了正例和负例。为了使结果可比较，所有方法都使用相同数量的负样本进行训练。模型训练和超参数。每种方法对数据进行最多10次遍历（相应的随机梯度步数取决于小批量的大小）。s-emb的参数是随机初始化的。我们从经过一次训练的s-emb中初始化d-emb和t-emb，然后再进行9次额外的训练。我们将嵌入的维度设置为100，负样本的数量设置为20。我们研究了两种上下文大小，2和8。其他参数通过验证错误进行设置。所有方法都使用验证错误来设置初始学习率 η和小批量大小 m 。模型选择 η ∈ [0.01, 0.1, 1, 10] 和 m ∈ [0.001N, 0.0001 N, 0.00001 N]，其中 N是训练数据的大小。d-emb唯一的特定参数是随机漂移的精度。为了减少一个需要调整的超参数，我们将上下文向量和初始动态嵌入的精度固定为 λ 0 = λ /1000，即动态嵌入精度的常数倍。我们通过验证错误选择 λ ∈ [1,10]。结果。我们在每个训练集上训练每个模型，并使用每个验证集来选择参数，如小批量大小和学习率。表2报告了测试集上的结果。动态嵌入始终具有更高的留存似然。03.3 定性探索0一个单词的用法在一段时间内发生变化的原因有很多。单词可能变得过时或获得新的含义。随着社会的进步，单词被用来描述这种进步，这种进步也逐渐改变了单词的含义ArXiv MLACMsign(ρ(t)v )⊤ρ(t)wρ(t)vρ(t)w.(8)10080图3：动态嵌入捕捉了单词“伊拉克”在1858年至2009年间的用法变化。x轴表示时间，y轴表示使用主成分分析（PCA）得到的嵌入的一维投影。我们包括了1858年、1954年、1980年和2008年的伊拉克的嵌入邻域。0表2：动态嵌入（d-emb）始终获得最高的留存似然 L eval。我们与静态嵌入（s-emb）[25,35]和时间分段嵌入（t-emb）[15]进行比较。留存预测的最大标准误差为0.002，这意味着所有报告的结果都是显著的。0上下文大小 2 上下文大小 8 s-emb [35] − 2.77 −2.54 t-emb [15] − 2.97 − 2.81 d-emb [本文] −2.58 − 2.440参议院演讲0上下文大小 2 上下文大小 8 s-emb [35] − 2.41 −2.29 t-emb [15] − 2.44 − 2.46 d-emb [本文] −2.33 − 2.280上下文大小 2 上下文大小 8 s-emb [35] − 2.48 −2.30 t-emb [15] − 2.55 − 2.42 d-emb [本文] −2.45 − 2.270单词。一个单词可能有多个不同的含义。随着时间的推移，一个含义可能比其他含义更相关。我们现在展示如何使用动态嵌入来探索文本数据，并发现单词的用法变化。一个单词的嵌入邻域有助于可视化其用法以及随时间的变化。它只是一个包含其他单词的列表0类似的用法。对于给定的查询词（例如，计算机），我们取其索引v，并根据0邻域 ( v , t ) = argsort w � �0例如，我们将动态嵌入拟合到参议院演讲中。表3给出了计算机在1858年和1986年的嵌入邻域。它的用法在多年间发生了巨大变化。在1858年，计算机是一个职业，一个被雇来计算事物的人。现在这个职业已经过时了；计算机指的是电子设备。表3提供了另一个例子，布什。在1858年，这个词总是指植物。灌木仍然是一种植物，但在20世纪90年代，它通常指的是政治家。与计算机不同，其中嵌入邻域揭示了两个互斥的含义，布什的嵌入邻域反映了在给定时期中哪个含义更普遍。表3中的最后一个例子是单词数据，来自ACM摘要的动态嵌入。数据的嵌入邻域的演变反映了它在计算机科学文献中的含义变化。寻找具有绝对漂移的变化单词。我们已经突出显示了用法发生变化的示例单词。然而，并非所有单词的用法都在变化。我们现在定义一个度量来发现哪些单词变化最大。找到变化的单词的一种方法是使用绝对漂移。对于单词v，它是0漂移（v）= ||ρ（T）v - ρ（0）v||。（9）0这是单词在最后一个和第一个时间片的嵌入之间的欧氏距离。在参议院演讲中，表4显示了具有最大绝对漂移的16个单词。伊拉克一词的漂移最大。图3突出显示了伊拉克在四个时间片段中的嵌入邻域：1858年，0跟踪：Web内容分析，语义和知识WWW 2018年4月23日至27日，法国里昂10090表3：嵌入邻域（公式（8））揭示了一个词随时间的用法如何变化。计算机和布什的嵌入邻域是从拟合到国会演讲（1858-2009）的动态嵌入计算得出的。计算机曾经是一个职业，但现在它用来指代电子设备。布什这个词是一种植物，但在国会中布什用来指代政治人物。数据的嵌入邻域来自拟合到ACM摘要（1951-2014）的动态嵌入。0计算机（参议院）018581986绘图员软件绘图员计算机抄写员版权摄影师技术计算机创新抄写员机械管理员硬件会计师技术0布什（参议院）018581990番杏树切尼锈废话灌木尼克松蛀虫里根根癌症批评蜱克林顿0数据（ACM）01961 1969 19912014目录存储库大量数据流文件大量原始数据大量编目血统存储库原始数据格式化元数据数据流仓库检索快照数据源DWS发布数据流卷存储库档案原始数据DWS数据源档案清理DSMS数据挖掘0表4：参议院演讲中动态嵌入变化最大的前16个单词列表。数字表示绝对漂移（公式（9））。大写单词的动态在表5中，并在正文中讨论。0漂移最大的单词（参议院）0伊拉克3.09硬币2.39减税2.84社会保障2.38医疗保健2.62罚款2.38能源2.55信号2.38医疗保险2.55计划2.36纪律2.44行动2.35文本2.41信用2.34价值观2.40失业2.3401950年，1980年和2008年。最初，邻域包含其他国家和地区。后来，阿拉伯国家上升到邻域的顶部，表明演讲开始使用更具体于阿拉伯国家的修辞。在1980年，伊拉克入侵伊朗，伊朗伊拉克战争开始。在这些年里，诸如部队之类的词语0图4：根据拟合到参议院演讲的动态嵌入，大多数单词在1947-1947时间片段中变化最大。0入侵出现在嵌入邻域中。最终，到2008年，该邻域包含恐怖、恐怖主义和萨达姆。另外四个具有较大漂移的词是纪律、价值观、罚款和失业（表4）。表5显示了它们的嵌入邻域。其中，纪律、价值观和罚款具有多个含义。它们的邻域反映了主导含义随时间的变化。例如，价值观既可以是一个数值量，也可以用来指代道德价值观和原则。相比之下，伊拉克和失业都是一直具有相同定义的词。然而，它们的邻域的演变捕捉到了它们的用法发生的变化。变点分析。我们使用拟合的动态嵌入来找到单词的用法在时间上发生 drastica的实例。我们不假设一个词的含义只发生一次相变[20]。由于在我们的d-emb的公式中，上下文向量在所有时间片之间是共享的，所以嵌入是基于一个语义空间的，并且不需要后处理来对齐嵌入。我们可以直接计算学习到的嵌入向量中单词用法的大跳跃。对于每个单词，我们计算了单词用法变化最大的时间片的列表。0最大变化 ( v ) = argsort t|| ||0|| ρ ( t ) w − ρ ( t − 1 ) w || ||. (10)0时间片 t中的变化通过其他所有单词在相同时间片内的变化来进行归一化。归一化使得最大变化排序对于单词的嵌入在时间片内漂移最远的时间片敏感，与其他单词在时间片内漂移的距离相比。例如，对于单词伊拉克，最大变化发生在1990-1992年。确实，那一年海湾战争开始了。请注意，这与图3一致，在嵌入轨迹的一维投影中，我们可以看到在1990年左右有一个大的跳跃。图中的轨迹仅捕捉到第一主成分的变化，而方程10则测量了所有维度组合的嵌入向量的差异。0跟踪：Web内容分析，语义和知识WWW 2018年4月23日至27日，法国里昂10100表5：从动态嵌入中提取的嵌入邻域（1858-2009年）的表格。纪律、价值观、罚款和失业是16个具有最大绝对漂移的动态嵌入的单词之一（表4）。0纪律01858 2004 驯化平衡西点平衡攻击财政0价值观01858 2000 波动神圣价值不可剥夺货币独特0罚款01858 2004 奢华惩罚最好的监狱粗糙监禁0失业01858 2000 失业无业萧条率急性萧条0表6：使用动态嵌入可以研究感兴趣的社会现象。我们选择一个感兴趣的目标词，例如工作或卖淫，并创建它们的嵌入邻域（方程（8））。0工作01858 1938 2008 就业失业工作失业就业创造加班工作创造0卖淫01858 1930 1945 1962 1988 1990 惩罚惩罚不端不端恐吓服役不道德不道德卑鄙骚扰卖淫骚扰非法私酒不道德恐吓伪造恐吓0接下来，我们研究了哪些年份有很多单词在用法上发生了最大的变化。图4是每个单词在哪些年份发生最大变化的直方图。例如，伊拉克属于1990-1992年的区间，与其他近300个单词一起，在1990-1992年也发生了最大的相对变化。我们可以看到最多单词的区间（用红色标记）是1946-1947年，标志着第二次世界大战的结束。在那个时间片中，将近1000个单词在相对变化最大。表7列出了在1946-1947年变化最大的10个单词。列表的首位是马歇尔，约翰∙马歇尔∙哈兰的中间名，约翰∙马歇尔∙哈兰二世，父子俩都曾任美国最高法院大法官。它也是1947年成为美国国务卿的乔治∙马歇尔的姓氏。他构思并实施了马歇尔计划，这是一个经济援助计划，旨在帮助战后的欧洲。表7中的内容是0表7：动态嵌入识别出马歇尔在1946-1947年变化最大。左侧是1946-1947时间段（图4中标为红色）中变化最大的词语列表。右侧是跳跃之前和之后的马歇尔的嵌入邻域。01946年变化最大01. 马歇尔2.

下载后可阅读完整内容，剩余1页未读，立即下载