2830基于生命周期的微博事件检测0林木0中国科学技术0中国0邮政信箱2300270中国0mulin@mail.ustc.edu.cn0金培权0中国科学技术0中国0邮政信箱2300270中国0jpq@ ustc.edu.cn0郑立洲0中国科学技术0中国0邮政信箱2300270中国0zhenglz@mail.ustc.edu.cn0陈恩红0中国科学技术大学应用0邮政信箱2300270中国0cheneh@ustc.edu.cn0岳立华0电磁空间信0中国科学院0邮政信箱2300270中国0llyue@ustc.edu.cn0摘要0像Twitter和新浪微博这样的微博已成为事件检测和监测的重要信息来源。在许多决策场景中,仅提供事件的结构元组是不够的,例如,一个包含<谁,何地,何时,什么,谁,如何>的记录。然而,除了事件的结构元组之外,人们还需要了解事件的演化生命周期。事件的生命周期描述对于决策非常有帮助,因为人们可以关注事件的进展和趋势。在本文中,我们提出了一种在微博平台上高效检测和跟踪事件演化的新方法。我们研究的主要特点是:(1)它提供了一种新颖的事件类型驱动的方法来提取事件元组,为事件演化分析奠定了基础。(2)它通过一个分阶段模型描述了事件的生命周期,并提供了检测事件各个阶段的有效算法。(3)它通过对事件各个阶段进行情感分析,使人们能够了解特定事件在不同时间段的公众情感倾向。我们构建了一个原型系统,并在论文中介绍了其架构和实现细节。此外,我们对真实微博数据集进行了实验,以精确度、召回率和F-measure为指标,结果表明了我们提出的方法的有效性和效率。0CCS概念 • 信息系统 → 信息检索 → 检索任务和目标 → 信息提取0关键词:事件演化,事件检测,微博,生命周期0ACM参考格式:L. Mu,P. Jin,L. Zheng,E. Chen和L.Yue。2018年。基于生命周期的微博事件检测。在2018年Web会议论文集(WWW2018),2018年4月23-27日,法国里昂,ACM,纽约,NY,8页。DOI:https://doi.org/10.1145/3184558.318633801 引言微博平台一直是新事件检测和传播的主要来源之一。例如,作为中国最流行的微博平台,新浪微博拥有超过2.8亿用户,每秒钟发布超过1000条微博。受微博用户产生的大量新鲜信息的推动,近年来在微博上进行了许多关于事件检测和分析的研究[1, 2]。0然而,以前的研究主要集中在提取事件的结构元组,例如提取5W1H(谁,何地,何时,什么,谁,如何)信息[1]。除了事件结构元组的提取,一些研究还关注事件的演化分析。在文献[3-5]中,研究人员通过按时间线排序事件或使用其他简单规则对事件进行了演化分析。这些研究无法把握事件的发展阶段。另一方面,一个事件在现实世界中通常有一个发展阶段,即从诞生到死亡,这与人的生命周期类似。事件的生命周期信息在信息挖掘和决策中非常有用。例如,公司经理可以根据与产品相关的事件的发展阶段做出具体决策。基本上,一个事件的生命周期可以定义为一个包括萌芽阶段、发展阶段、高峰阶段、衰退阶段和平静阶段的五个阶段的过程,如图1所示。0图1. 事件的生命周期0事件演变已经在一些先前的研究中进行了研究[6,7]。例如,在[7]中,研究人员定义了三个过程,即新兴、增长和衰退,来描述事件的演变。然而,他们只描述了事件热度的变化。此外,在[7]中定义的三个过程不能指示事件生命周期中的确切阶段。另一方面,他们0本文发表在知识共享署名4.0国际许可证(CC-BY4.0)下。作者保留在个人和公司网站上传播作品的权利,并附上适当的归属。WWW2018,2018年4月23日至27日,法国里昂。© 2018IW3C2(国际万维网会议委员会),根据知识共享CC BY 4.0许可证发布。ACM ISBN978-1-4503-5639-8/18/04。DOI: https://doi.org/10.1145/3184558.31863380赛道:认知计算WWW 2018,2018年4月23日至27日,法国里昂 Research work on Topic Detection and Tracking (TDT) [28] has attracted great attention in recent years. There are many studies on the evolution of events. For example, [25] took the evolution relationships at the topic-level into consideration to discovery temporal patterns of popular events from text streams. In [27] adopted a vector space model and TD-IDF to generate the document vectors, and the similarity of documents was measured by cosine similarity to describe the evolution relationships between the events, supplemented by the features of temporal proximity and document distributional proximity. Inspired by machine learning and rules based model, [24] extracted events from the level of the sentences, determined the evolutionary relationship between two events and demonstrated a new model of information retrieval and summary generation. The similarity between the content of the documents was incorporated with other features to evaluate the strength of the evolutionary relationship between news events. One of the greatest features of the research in this direction is the common use of the vector space model, the TF-IDF formula and cosine similarity to measure the similarity of the content of the documents. In addition to the research [27] on the evolution relationships between the events within a news topic, Wei et al. [26] focused on how to divide the news stories into the related news events and proposed an improved TF-IDF model on the basis of original one that it could be more effective in the discovery of news events from the corpus. There is also some work that was the evolution of real-time extraction events. In [7], a subgraph-by-subgraph incremental tracking framework was proposed for event monitoring. A skeletal graph was designed to summarize the information within a fading time window in a dynamic network. Cai et al. proposed [4] used 2840以前的研究使用向量来表示事件,但不能表达事件的语义细节,例如事件的5W1H细节[1]。相反,我们提出的算法不仅能描述事件的发展阶段,还能为每个事件提供详细的5W1H信息。0事件演变阶段提取旨在提取事件的发展阶段。然而,当前的事件提取算法只关注提取事件的摘要,而不关注其演变过程。挑战在于提取事件的链接和分割阶段。例如,如果从一组微博中提取出一个事件元组,我们应该首先将事件元组链接到之前发生的相同事件,然后确定该事件属于生命周期的哪个阶段。当前的事件演变提取工作存在以下不足之处。首先,它们不能呈现事件的阶段演变过程和情感。此外,它们在从微博中提取事件时没有考虑事件类型,并且没有为提取的事件提供细致的描述。0在本文中,我们提出了一种新颖的方法来检测和分析微博平台上事件的演变过程和情感演变。本文的主要贡献如下:0(1)我们提议将事件类型纳入事件元组提取中。受新闻报道领域中基于新闻特征(即何时、何地、谁、谁、什么和如何)描述事件的研究[1]的启发,我们考虑从微博中检测事件的新闻特征。0(2)为了从宏观上把握事件的发展,我们基于一个五阶段的生命周期模型描述了事件的演变,包括萌芽、发展、高峰、衰退和平息。我们考虑从微博中检测事件的生命周期阶段。0(3)公众对事件的情感倾向随时间变化。基于事件的提取阶段,我们开发了一个可视化界面,用于监测特定事件每个阶段的公众情感演变。0(4)我们开发了一个原型系统来展示我们提案的可行性。此外,我们对真实微博数据集进行了实验。精确度、召回率和F-measure的结果表明了我们提案的有效性和效率。02 相关工作在本节中,我们总结了现有的工作。与我们的工作密切相关的主要有三个研究领域,即微博上的事件提取、事件演变提取和事件情感提取。02.1 微博上的事件提取0微博上的事件提取是信息提取领域的研究热点。在这个领域,大多数以前的工作都集中在检测特定类型的事件[8]或开放领域中的事件[9-10],并且已经提出了许多方法,如基于LDA的主题建模[13]、文本分类和聚类。0Blei等人提出的标准LDA模型[13]首次用于提取文本的主题。在[16]中,作者使用多种方法训练微博文本中的标准主题模型,并比较了这些方法的有效性和效率。Ritter等人[9]基于主题模型提取了开放领域中的重大事件,并结合命名实体标记器和序列标注技术。在[18]中,作者使用改进的基于LDA主题模型和循环中餐厅过程的方法来提取主题和事件。其他基于主题模型的方法在[19-20]中提出。0本文还采用聚类技术来提取事件。我们的方法基于凝聚层次聚类,该方法已经在[11]中用于基于给定关键词提取事件。与[11]不同的是,我们强调事件类型(命名实体的分布)的重要性,以计算每个聚类中微博帖子之间的相似性。此外,我们不使用突发词等特征,因为它们无法提取出少数微博帖子中提到的事件[15, 21]。0文本聚类是另一种在微博上提取事件的流行方法[11-15]。它首先提取单个词、主题标签[12]、n-gram或突发n-gram等特征,然后将提取的特征输入到基于相似性的聚类算法中提取事件。在[15]中,作者提出了一种称为EDCOW(基于小波信号聚类的事件检测)的方法,该方法首先基于小波理论提取事件突发,然后使用图分割技术聚类形成事件。系统STED[21]也使用图来划分聚类方法来提取事件。该系统首先提取与事件相关的关键词短语,然后使用聚类方法获取一些较小的推文(推文小聚类)。在论文[11]中,作者首先提取在固定时间间隔内能够表达事件的关键词,然后使用自下而上的层次聚类方法对这些关键词进行聚类。还有许多使用深度学习来提取事件的算法[22, 23]。0近年来,关于主题检测和跟踪(TDT)[28]的研究工作引起了广泛关注。有许多关于事件演化的研究。例如,[25]考虑了主题级别的演化关系,从文本流中发现热门事件的时间模式。在[27]中,采用向量空间模型和TD-IDF生成文档向量,并通过余弦相似度来描述事件之间的演化关系,辅以时间接近性和文档分布接近性的特征。受到机器学习和基于规则的模型的启发,[24]从句子级别提取事件,确定两个事件之间的演化关系,并展示了一种新的信息检索和摘要生成模型。将文档内容的相似性与其他特征结合起来,评估新闻事件之间演化关系的强度,是这个方向研究的最大特点之一。除了[27]对新闻主题内事件之间的演化关系的研究外,魏等人[26]还关注如何将新闻故事划分为相关的新闻事件,并在原始TF-IDF模型的基础上提出了改进的TF-IDF模型,它在从语料库中发现新闻事件方面更加有效。还有一些工作是关于实时提取事件的演化。在[7]中,提出了一种逐子图增量跟踪框架用于事件监测。设计了一个骨架图来总结动态网络中一个衰减时间窗口内的信息。蔡等人提出的[4]使用了02.2 事件演化检测0Track: 认知计算 WWW 2018, 2018年4月23日-27日, 法国里昂 MicroblogsMicroblog CrwalerEvent Tuple LinkingEmotional Evolution AnalysisEvent Lifecycle DetectionUser Interface Event Tuple ExtractionEvent TupleMicroblogging Platform (1) 2850四个事件操作(即创建、吸收、分割和合并),并设计了一个多层倒排列表的事件索引结构,用于管理和发现Twitter流中不断演化的事件。在[6]中,研究人员定义了三个过程,即新兴、增长和衰退,来描述事件的演变。0然而,上述工作存在以下问题。首先,他们使用向量或一些关键词来表示事件,这无法表达事件的语义细节,例如事件的5W1H细节[1]。其次,尽管他们可以提取事件的演变,但他们没有一个模型能够清楚地给出事件处于哪个阶段。02.3 事件情感分析0舆情挖掘和情感分析近年来一直是热门研究课题。基本上,情感分析包括五种类型的任务[29],即文档级情感分析、句子级情感分析、方面级情感分析、比较性情感分析和情感词典获取。不同的方法已被提出来实现这些任务的目标。第一种方法被称为基于语义的方法[30,23,36],它根据规则和情感词典进行情感分析。第二种方法是基于机器学习的方法[34,35],它将情感分析视为二元或多类分类任务,并使用常见的分类方法。大多数关于情感分析的先前工作可以归类为以上两种类型,但也有一些使用不同方法的其他工作[31, 32]。0近年来,深度学习算法已被应用于自然语言处理领域,取得了比传统模型更好的结果。也有许多研究人员将深度学习应用于各种情感分析任务[37]。大多数现有工作是从各种粒度提取文本的情感倾向,然而,微博事件将继续演变,因此用户的情感倾向将随着事件的演变而改变,我们的目标是提取微博事件中用户的情感演变。03 基于生命周期的事件检测框架0在本节中,我们描述了事件演变阶段提取算法的特征。图2显示了我们方法的过程。关键模块包括事件元组提取、事件元组链接、事件生命周期检测和情感演变分析。0微博0微博爬虫0事件元组0链接0情感0演变分析0事件生命周期0检测0用户界面0事件元组提取0事件元组0微博0平台0图2. 基于生命周期的事件检测框架03.1 事件元组提取0首先,我们对原始微博数据集进行预处理,包括分词和去除停用词。为了方便实时微博数据处理,我们将爬取的微博数据划分为切片。每个切片收集在同一时间间隔(例如一小时或一天)内发布的所有微博帖子[9]。这些微博切片按照时间顺序批量处理。0接下来,我们从切片的微博数据中提取事件元组。事件元组的提取基于事件类型,其描述如下。03.1.1 事件类型。事件类型的定义如下:定义1.事件类型。给定一个由一个事件查询词获得的微博帖子集合T,事件类型被定义为一个四元组
,其中p l , p n , p o , p t分别表示集合中位置、人名、组织和时间实体的重要性。注意,这四个概率值的和必须等于1,即p l +p n +p o +p t = 1。■0为了在提取事件元组时利用事件类型,我们首先提取事件类型,即概率四元组。给定一个微博帖子集合,我们将其表示为一个特征向量x,然后采用多项式逻辑回归方法来训练模型,如公式(1)所示。结果�� = �(�= �|�(�), �),其中i = l, p, o和t表示不同命名实体类别的概率分布[1]。0�� = �(� = �|�(�), �) = � � �� ��(�)0∑ � � �� ��(�)0�0最后,我们得到一个四元组,作为事件类型的输出。我们将进一步使用这个四元组来执行事件元组提取。03.1.2事件元组聚类。相似度的计算是聚类过程的关键部分。良好的相似度计算方法将显著改善聚类效果。由于不同类型的事件,不同类型的命名实体的分布不同,因此我们使用命名实体信息来增强聚类效果。0在提取事件元组之前,我们首先提取事件类型,即以不同命名实体类别的概率分布表示的事件类型。然后,我们使用它来计算微博帖子之间的相似度,并进一步进行聚类。我们的相似度计算由两部分组成,即微博帖子中术语的正常余弦相似度和命名实体之间的相似度。0(1)正常术语相似度:正常术语相似度基于词袋模型,将每个微博帖子表示为一个术语向量。我们采用两个术语向量之间的基本余弦相似度作为正常术语相似度,表示为����。0(2)命名实体相似度:微博帖子之间的相似度的另一个重要部分是命名实体相似度。由于不同类别的命名实体在不同类型的命名实体中可能起到不同的作用,我们提出调整命名实体类别的权重,例如,增加地点相似度在地震等基于地点的事件中的权重,或者增加组织相似度在企业破产等基于组织的事件中的权重。两个微博帖子之间的命名实体相似度通过公式(2)计算。0Track: Cognitive Computing WWW 2018, April 23-27, 2018, Lyon, France ] (2) Microblogs 2860��� � �(m, n) = ∑ [� � � ∑ ∑ ��� (��,�0�(�), ��,�0�(�)0��0�0这里,���(��,� �(�), ��,��(�))是两个命名实体之间的相似度。这个相似度是基于最小编辑距离(MED)计算的。��(� = �, �, �, �)表示每个命名实体的权重。0(3)总体相似度:我们聚类过程中的总体相似度是正常术语相似度和命名实体相似度的加权和,如公式(4)所示。其中,β是两种相似度之间的权衡。0��� = � � ���� + (1 − �) � ���� (3)0因为无法提前知道微博数据集中包含的事件数量,所以我们采用聚合层次聚类方法来提取事件元组。通过微博聚类,我们得到了许多事件微博簇,每个簇中的微博帖子与同一事件相关联。03.1.3事件详细信息提取。通过前面的部分,我们得到了微博事件簇的集合,即事件元组集合。接下来,对于每个簇,我们提取5W1H(何时[38],何地[39],谁,什么,谁)信息,完整的5W1H元素通常有助于准确描述一个事件。事件详细信息提取的过程如图3所示[1]。0微博0基于事件类型0聚类0事件语义提取0内容时间0和位置提取0基于0技术0新闻0元素0术语0聚类和链接0图3. 事件详细信息提取过程03.2 事件元组链接0由于事件会随着时间的推移而发展,我们在提取不同微博切片的事件元组后,需要将描述同一事件的事件元组进行链接。例如,如果我们在7月6日提取一个事件元组来描述一起爆炸事件,这个爆炸事件将会继续发展。在7月7日,我们也提取了一个描述爆炸的事件元组。在这种情况下,我们需要将描述同一事件的事件元组进行链接。0详细的事件元组链接算法如算法1所示。给定时间为��的微博切片,我们首先获取事件元组集合eventTupleSet�。对于eventTupleSet�中的每个事件元组,我们计算该事件元组与之前事件的相似度,找到最相似的事件,然后将事件元组链接到该事件上。如果没有相似的事件,我们创建一个新的事件,并将事件元组附加到新创建的事件上。0在计算两个事件的相似度时,我们考虑以下两种相似度:0(1)时空相似度。作为描述事件的重要因素,主题、时间和位置信息特别重要,我们根据事件元组中提取的5W1H信息中的who、where和when元素计算相似度。0我们还使用事件类型来调整who、where和when在相似度测量中的0(2)语义相似度。事件的语义信息对于区分事件也非常重要。因此,我们通过分析事件元组中的文本词语来提取事件的语义信息,然后计算事件元组之间的文本相似度。0算法1. 事件元组链接0输入:������������� �:时间为��的微博事件元组集合;eventSet:微博事件集合输出:eventSet:修订后的微博事件集合初始:threshold是预定义的事件相似度阈值。01. 对于������������� �中的每个et,执行以下操作:02. e � eventSet 中与 et 最相似的事件03. 如果similarity(e, et) > threshold,则执行以下操作:04. 将 et 添加到 e 的元组列表中05. 否则执行以下操作:06. 创建一个新的事件 en07. 将et添加到en的元组列表中08. 将 en 添加到 eventSet 中09. 结束如果010. 结束循环011. 返回eventSet03.3 事件生命周期检测0图4显示了事件的表示框架。每个事件都有一个唯一的ID和一组事件属性。它还有一个唯一的生命周期,是一个五位结构,表示事件的当前演化过程。例如,<11000>表示事件处于发展阶段。事件有一个事件元组列表,由事件元组链接算法链接。所有事件元组沿时间线排列,每个元组都有一个指示器描述它所属的阶段。0图4. 事件表示0事件的生命周期信息对于决策非常重要。例如,当三星智能手机爆炸事件在微博平台上报道时,它的发展非常快,并给三星带来了负面影响。另一方面,如果三星能够及时了解事件的演化过程(生命周期),他们可以采取有效措施来降低事件的负面影响。0详细的事件生命周期检测算法如算法2所示。给定一个微博事件元组集合 ������������� � 和时间为 � � 的事件 ����� ��。首先,我们利用事件元组链接算法获取描述 ����� �� 的一些事件元组elist。接下来,我们提取当前时间下 ����� �� 的生命周期 �������� �� ,然后将 elist分配给 �������� �� ,并使用 �������� �� 更新 ����� �� 。0Track: Cognitive Computing WWW 2018, April 23-27, 2018, Lyon, France 2870算法2. 事件生命周期检测0输入:������������� �:时间为 � � 的微博事件元组集合;0����� ��:时间为 � � 的第 j 个微博事件0输出:����� ��:时间为 � � 的第 j 个修订的微博事件01. 对于 ������������� � 中的每个 et,执行以下操作:02. 如果事件链接 et 和 ����� �� 成功,则执行以下操作:03. 将 et 添加到 elist 中;04. 结束循环05. 结束循环06. �������� �� � 使用 ����� �� 更新 elist,检测 ����� �� 的生命周期;07. 将 elist 分配给 �������� �� ;08. 使用 �������� �� 更新 ����� �� ;09. 返回 ����� �� ;0事件演化检测的关键问题是确定事件的正确阶段。有时我们需要预测事件在未来的阶段。在我们的算法中,我们使用事件的热度来检测事件的生命周期。我们根据以下特征定义事件的热度:0(1)使用转发数、评论数以及相关微博帖子的总数来衡量一个事件的热度。0(2)如果用户对一个事件的情感倾向发生剧变,这意味着事件的演化阶段可能会改变。0(3)人们并不总是只关注一个特定的事件。当发生一个新的有趣事件时,它会吸引用户的注意力并改变当前事件的演化阶段。0(4)当嵌入在事件元组中的位置发生变化时,通常意味着事件的演化阶段发生了变化。0上述方法实际上是一种基于规则的方法。在我们的未来工作中,我们将考虑其他类型的方法,如异常检测中的机器学习方法[17]。03.4 情感演化分析0某一事件上的公众情感倾向会随着时间而变化,而不是保持在同一状态。因此,在决策过程中,跟踪事件的情感演变是有帮助的。在本文中,我们采取三个步骤来提取事件的情感演变信息。0(1)首先,我们从每个微博切片中提取微博事件元组,并根据给定的情感词典提取事件元组的情感倾向。0(2)其次,我们将事件元组映射到事件的发展阶段,如图4中的事件0(3)最后,我们根据阶段内事件元组的情感倾向计算事件每个阶段的整体情感极性。我们使用加权求和来聚合阶段内事件元组的情感倾向,其中对于最近的事件元组,我们给予较高的权重。0基于第3节中提出的算法,我们开发了一个名为EventSys的原型系统。图5显示了EventSys的软件架构。0图5. EventSys的结构0通过使用18个事件关键词(如爆炸、地震、选举和收购)从新浪微博中爬取的数据集。从2013年2月到2013年3月,共有500万条微博帖0在爬取微博帖子后,我们首先将数据集分成按天划分的微博切片,然后对帖子进行预处理。具体步骤如下:0(1) 删除不必要的标签,如http地址和带有"@"符号的标签。0(2)对微博文本进行分词和词性标注。这里我们使用了分词工具NLPIR。0(3)删除不包含命名实体的帖子。给定一个与事件关键词相关的微博集合,我们预处理微博帖子。然后,我们提取与微博集合中的事件对应的事件类型,假设关键词不明确。最后,我们根据事件类型对微博集合进行聚类,并在聚类后得到与事件词相关的一些事件元组。算法的详细描述见第3.1节。0对于语义元素提取,我们使用[1]中提出的算法提取事件的5W1H信息。对于情感分析模块,我们采取三个步骤来提取事件的情感演变信息。首先,我们使用TF-IDF方法计算两个事件元组的相似度,并连接事件元组。接下来,根据给定的情感词典提取每个事件阶段的事件元组中的情感词。最后,我们组织一个事件情感附加的可视化情感趋势。0图6显示了系统的快照。区域A显示了与关键词相关的所有事件的列表。事件按相关微博的数量排序。您可以通过点击事件来查看事件的详细信息。在区域B中,我们可以看到大部分事件发生在中国东部沿海地区。图6右侧显示了事件的情感演变,其中呈现了不同类型的情感信息,包括静态统计情感、动态情感趋势和支持的微博帖子。0Track: 认知计算 WWW 2018,2018年4月23日至27日,法国里昂 𝑃𝐸 = #𝑡𝑟𝑢𝑒_𝑒𝑣𝑒𝑛𝑡_𝑐𝑙𝑢𝑠𝑡𝑒𝑟#𝑎𝑙𝑙_𝑐𝑙𝑢𝑠𝑡𝑒𝑟 (4) 𝑃𝐶 = #𝑡𝑟𝑢𝑒_𝑐𝑙𝑢𝑠𝑡𝑒𝑟#𝑎𝑙𝑙_𝑐𝑙𝑢𝑠𝑡𝑒𝑟 (5) B A 2880图6. EventSys的快照05 性能评估05.1 数据集0在实验中,我们通过爬取新浪微博(http://weibo.com)上与一个或多个事件相关的查询词来准备两个数据集。我们爬取包含这些查询词的微博。在我们的工作中,我们考虑了两个异构数据集:第一个数据集由爬取包含给定查询词的帖子组成。另一个数据集由描述某些特定事件的帖子组成。我们将这两个数据集分别表示为DS1和DS2,如下所述。0DS1 .第一个数据集DS1包含了从2013年2月24日到2013年3月29日通过事件关键词爬取的超过450K篇帖子的集合。集合中的帖子只包含一个特定的事件关键词。在我们的实验中,我们使用了18个事件关键词,0DS2 .另一个数据集DS2包含关于特定事件的帖子。我们通过搜索包含特定事件的几个关键词的帖子来获取这些事件。我们总共收集了24个事件进行评估。05.2 事件元组提取0表1. 事件类型提取的精度0技术 精度0多项式逻辑回归 88.9%0随机森林 85.6%0多层感知机 86.8%0支持向量机 84.4%05.2.1事件类型提取。在训练阶段,我们随机选择DS1中的10天,其中包含所有查询词的微博帖子,构建我们的训练数据。每个查询词在一天内的微博帖子集合是一条训练数据。因此,我们总共有约180条训练数据用于18个查询。我们手动将训练数据标记为四个命名实体类别之一,即基于位置的类别、基于人名的类别、基于组织的类别和基于时间的类别。我们测试了一些机器学习技术来训练模型。我们使用训练好的模型在剩下的20天的微博帖子中对所有查询进行测试。由于我们对召回率指标不太关心,因此我们只关注精确度指标。0在这个任务中,我们使用精确度来评估该方法。在我们的实验中,我们使用以下方法来计算事件类型,多项式逻辑回归取得了最佳性能,如表1所示。05.2.2事件元组提取。微博话题通常可以分为两类,一类是与事件相关的话题,另一类是与事件无关的话题。因此,我们不仅要评估数据相似性高的聚类,还要评估微博与事件相关的话题。在事件元组提取的实验中,我们在评估中考虑了两种精确度度量标准,即事件聚类精确度PE和整体聚类精确度PC。对于从聚类步骤中获得的每个聚类,我们手动检查聚类中的所有帖子。如果聚类中超过80%的帖子与同一主题相关,则将该聚类视为真实聚类。进一步地,如果真实聚类中的主题与事件相关,则该聚类是真实事件聚类。公式(4)和(5)描述了这两个度量标准。PE是真实事件聚类的数量除以我们提取的所有聚类的数量,PC是真实聚类的数量除以所有聚类的数量。我们还评估了我们度量标准的召回率值。由于在微博集合中找出所有事件是一项困难的任务,召回率被定义为真实事件聚类的数量。0图7. 不同方法的PE结果0图7-9显示了PE、PC和召回率的结果。我们评估了表2中显示的四种方法。这些方法之间的差异在于聚类中相似性的计算。从图7-9可以看出,对于度量标准PE,我们的方法(方法4和方法2)取得了综合最佳性能。然而,对于度量标准PC和召回率,基本的方法1达到了最高值。在检查结果聚类后,我们发现对于基本的方法1,由于在聚类时对数据的限制较少,聚类被聚合的聚类更多。因此,PC和召回率的值比基于命名实体相似性的方法更高。然而,结果聚类集中的许多聚类与事件无关,这使得方法1在PE方面的性能最差。请注意,对于事件提取任务,我们需要事件相关的性能,即我们需要高的PE和召回率值。0Track: 认知计算 WWW 2018,2018年4月23日至27日,法国里昂 𝑃 = #𝑟𝑒𝑎𝑙 𝑒𝑣𝑒𝑛𝑡 𝑖𝑛 𝑟𝑒𝑠𝑢𝑙𝑡#𝑎𝑙𝑙 𝑒𝑣𝑒𝑛𝑡 𝑖𝑛 𝑟𝑒𝑠𝑢𝑙𝑡 (6) 𝑅 = #𝑎𝑙𝑙 𝑒𝑣𝑒𝑛𝑡 𝑖𝑛 𝑑𝑎𝑡𝑎𝑠𝑒𝑡#𝑎𝑙𝑙 𝑒𝑣𝑒𝑛𝑡 𝑖𝑛 𝑟𝑒𝑠𝑢𝑙𝑡 (7) 𝐹1 = 2 ∗ 𝑃 ∗ 𝑅𝑃 + 𝑅 (8) 𝑆𝑖𝑚(𝑒1, 𝑒2) = (1 − 𝛼) ∗ 𝑇𝐹𝐼𝐷𝐹𝑠𝑖𝑚(𝑒1, 𝑒2) + 𝛼∗ 𝐿𝐷𝐴𝑠𝑖𝑚(𝑒1, 𝑒2) (9) WWW 0.947 0.115 0.206 WWW + TFIDF 0.556 0.533 0.544 WWW+TFIDF + LDA 0.875 0.214 0.344 TFIDF + LDA 0.657 0.686 0.671 TFIDF 0.879 0.242 0.380 LDA 0.69 0.571 0.625 2890图8. 不同方法的PC结果0图9. 不同方法的召回率结果0表2. 比较方法0方法 描述0方法1 仅考虑普通术语的余弦相似度。0方法2 仅考虑命名实体相似度,所有命名实体类别具有相同的权重。0方法30仅考虑命名实体相似度,每个命名实体类别的权重由其在帖子集合中的实体频率决定。0方法4仅考虑命名实体相似度,每个命名实体类别的权重由公式(2)决定。05.3 事件元组链接在这个实验中,我们的实验数据集是DS2。DS2由24个真实事件组成。每个事件都有一些事件元组,总共包含752个事件元组。在实验中,我们将752个事件元组按天数划分,并进行链接。对于从事件元组链接算法中获得的每个事件,我们检查事件中的所有事件元组。如果超过80%的事件元组属于同一个事件,则将该事件视为真实事件。0在评估中,我们定义精确度P为结果中真实事件的数量除以结果中事件的总数,如(6)所示。此外,我们定义召回率R为数据集中的事件数量除以结果中事件的总数,如(7)所示。最后,我们定义F1为(8)。0图10显示了使用TFIDF和LDA方法进行事件元组链接时的结果。我们通过(9)定义事件相似度。可以看出,当α设置为0.8或0.9时,该方法达到了最佳性能。0我们考虑事件的时间、地点、人物和其他重要信息来计算不同事件之间的相似度。表4显示了不同方法对相似度测量的结果。在表3中,WWW表示使用事件的when、where和who元素来计算不同事件元组之间的相似度。从表中可以看出,WWW方法不如TFIDF和LDA方法有效,因为我们提取的事件元组可能只包含少量微博帖子,导致when和where元素难以提取。0图10. TFIDF-LDA的结果0表3. 六种方法的结果0方法 P R F 10尽管TFIDF-LDA方法与其他方法相比表现良好,但与我们的要求相差甚远。将来我们将考虑其他技术来进行事件元组链接,如深度学习。05.4事件生命周期检测在这个实验中,我们也使用数据集DS2。在基准方法中,我们使用当前时间片中事件元组的微博总数来表示事件元组的热度,并使用热度变化率来衡量事件生命周期的变化。公式如(10)所示,其中curPopularity表示当前时间中事件的热度,average表示之前�时间内事件热度的平均值。0Track: 认知计算 WWW 2018年4月23日-27日,法国里昂 (10) 1 0.647 0.682 0.591 0.45 0.592 2 0.667 0.739 0.65 0.5 0.639 3 0.75 0.739 0.7 0.588 0.694 4 0.625 0.667 0.714 0.619 0.656 5 0.563 0.708 0.667 0.5 0.609 2900���� = ������������� − �������0我们手动检查每个阶段的划分。如果有多个相同的阶段,只要其中一个阶段被正确检测到,划分就被标记为正确。表4显示了不同�值下各个阶段的精确度。0表4. 基准方法的精确度0λ开发 窥视 衰退 平静 平均06 结论和未来工作在本文中,我们提出了一种新颖的方法来检测和监测微博平台上的事件演化阶段以及情感演化。与现有研究相比,所提出的算法提供了基于生命周期的事件和情感变化模型。通过这种机制,人们能够捕捉到事件的宏观情况和趋势,并进一步提高决策的有效性。此外,该算法可以为事件元组提供详细的5W1H信息,使人们能够查看事件演化的细节。我们引入了一种基于事件类型的方法来从原始微博帖子中提取事件元组,可以为提取的事件提供细粒度的描述。最后,我们提出了一个名为EventSys的原型系统,为用户提供可视化界面,以监测事件和情感的演化。0在未来的工作中,我们将研究更有效的算法来进行事件链接和生命周期检测。例如,可以