微博热点话题检测：结合词激活力与主题模型的摘要生成

需积分: 12 34 浏览量更新于2024-08-13 收藏 1004KB PDF 举报

"利用组合模型生成微博热点话题事件摘要 (2016年)" 本文主要探讨的是如何有效地生成微博热点话题的事件摘要。在社交媒体时代，微博等平台上的热点话题快速涌现，传统基于主题模型的话题检测方法往往只能提取出无序的话题词组合，而无法形成有条理的事件摘要。针对这一问题，作者提出了一个创新的方法，该方法结合了词激活力模型和主题模型的各自优势，旨在提高话题检测的准确性和摘要的可读性。首先，该方法运用传统的主题模型，如潜在狄利克雷分配（Latent Dirichlet Allocation, LDA），对微博文本进行分析，以挖掘出其中的热点主题。主题模型通过分析大量文本，可以找出隐藏的主题结构，从而确定每个文档与多个主题的相关程度，以及每个主题下的词频分布。接着，根据主题模型得到的各主题下文档的概率分布，可以筛选出与热点话题关联度高的新文档。这些文档通常包含了反映事件核心的词汇和信息。然后，引入词激活力模型（Word Activation Model），该模型用于计算不同词之间的相互作用和影响力，即词激活力。词激活力可以量化词与词之间的关联强度，有助于识别出热点事件中的关键序列。通过构建词激活力矩阵，可以捕捉到词汇间的动态关系，使得热点词按照其重要性和相关性排序。最后，利用词激活力矩阵生成有序的词序列，这便是热点事件的摘要。有序的词序列能更直观地反映出事件的进展和核心内容，提高了摘要的可读性。实验结果证明，这种方法能有效识别热点词，并生成高质量的事件摘要，对于理解和追踪微博热点话题具有显著的优势。此外，本文还提到了该研究受到重庆市教委科学技术研究项目、重庆市自然科学基金资助项目以及国家级大学生创新创业训练计划项目的资助，表明该研究具有一定的学术价值和实践意义。作者包括戴天、吴渝和雷大江，他们分别在网络智能、自然语言处理、数字媒体和数据挖掘等领域有所建树。该研究提供了一种新颖的微博热点话题检测和摘要生成方法，结合了主题模型和词激活力模型的优势，不仅增强了话题检测的准确性，也提升了事件摘要的可读性，对于实时信息提取和社交媒体数据分析具有重要的参考价值。

收稿日期：２０１５０３０９；修回日期：２０１５０４２３　　基金项目：重庆市教委科学技术研究项目（ＫＪ１３０５２７）；重庆市自然科学基金资助项目

（ＣＳＴＣ，２０１４ｊｃｙｊＡ４００４９）；国家级大学生创新创业训练计划项目（２０１３１０６１７００３）

作者简介：戴天（１９９０），男，江苏扬州人，硕士研究生，主要研究方向为网络智能、自然语言处理（３０４６５９５１２＠ｑｑ．ｃｏｍ）；吴渝（１９７０），女，教

授，博士，主要研究方向为网络智能、数字媒体；雷大江（１９７９），男，副教授，博士，主要研究方向为网络智能、数据挖掘．

利用组合模型生成微博热点话题事件摘要



戴　天，吴　渝，雷大江

（重庆邮电大学网络智能研究所，重庆４０００６５）

摘　要：针对微博热点话题检测使用主题模型只能提取出无序话题词组合的问题，提出一种结合词激活力模型

与主题模型各自优点的微博热点话题检测方法及话题关键词的计算方法。使用传统的主题模型提取出微博文

本中的热点主题，根据各主题下文档的概率分布提取出新的话题文档，引入词激活力模型计算各个词之间的词

激活力，生成词激活力矩阵，最后利用词激活力矩阵生成有序的词序列作为热点事件摘要。实验验证了该方法

的可行性，表明所提出的方法能够很好地识别出热点词并生成可读性高的事件摘要。

关键词：微博；话题检测；潜在狄利克雷分布；词激活力

中图分类号：ＴＰ３９１．１　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０１６）０７２０２６０４

ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００１３６９５．２０１６．０７．０２３

Ｈｏｔｔｏｐｉｃｓｕｍｍａｒｉｚａｔｉｏｎｏｎｍｉｃｒｏｂｌｏｇｇｅｎｅｒａｔｅｄｂｙｍｏｄｅｌｃｏｍｂｉｎａｔｉｏｎ

ＤａｉＴｉａｎ，ＷｕＹｕ，ＬｅｉＤａｊｉａｎｇ

（ＩｎｓｔｉｔｕｔｅｏｆＷｅｂＩｎｔｅｌｌｉｇｅｎｃｅ，ＣｈｏｎｇｑｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＰｏｓｔｓ＆Ｔｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ，Ｃｈｏｎｇｑｉｎｇ４０００６５，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｔｏｓｏｌｖｅｔｈｅｐｒｏｂｌｅｍｔｈａｔｍｉｃｒｏｂｌｏｇｈｏｔｔｏｐｉｃｄｅｔｅｃｔｉｏｎｂａｓｅｄｏｎｔｏｐｉｃｍｏｄｅｌｃａｎｏｎｌｙｅｘｔｒａｃｔｄｉｓｏｒｄｅｒｌｙｗｏｒｄｓｃｏｍ

ｂｉｎａｔｉｏｎｓ

，ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｄａｈｏｔｔｏｐｉｃｄｅｔｅｃｔｉｏｎｍｅｔｈｏｄｏｎｍｉｃｒｏｂｌｏｇｃｏｍｂｉｎｅｄｗｉｔｈｔｈｅａｄｖａｎｔａｇｅｏｆｗｏｒｄａｃｔｉｖｅｆｏｒｃｅ

ｍｏｄｅｌａｎｄｔｏｐｉｃｍｏｄｅｌ，ａｓｗｅｌｌａｓｉｔｓｃａｌｃｕｌａｔｉｏｎｍｅｔｈｏｄｏｆｋｅｙｗｏｒｄｓ．Ｆｉｒｓｔｌｙ，ｔｈｉｓａｐｐｒｏａｃｈｅｘｔｒａｃｔｅｄｈｏｔｔｏｐｉｃｏｎｍｉｃｒｏｂｌｏｇ

ｔｈｒｏｕｇｈｔｏｐｉｃｍｏｄｅｌ．Ｓｅｃｏｎｄｌｙ，ｉｔｅｘｔｒａｃｔｅｄｎｅｗｄｏｃｕｍｅｎｔｓａｃｃｏｒｄｉｎｇｔｏｔｈｅｐｒｏｂａｂｉｌｉｔｙｄｉｓｔｒｉｂｕｔｉｏｎｏｆｄｏｃｕｍｅｎｔｓｕｎｄｅｒｅａｃｈ

ｔｏｐｉｃ．Ｔｈｅｎ，ｉｔｇｅｎｅｒａｔｅｄｔｈｅｗｏｒｄａｃｔｉｖｅｍａｔｒｉｘｂｙｗｏｒｄａｃｔｉｖｅｍｏｄｅｌ．Ｆｉｎａｌｌｙ，ｉｔｇｅｎｅｒａｔｅｄａｎｏｒｄｅｒｌｙｓｅｑｕｅｎｃｅｏｆｗｏｒｄｓａｓｈｏｔ

ｔｏｐｉｃｂｙｗｏｒｄａｃｔｉｖｅｍａｔｒｉｘ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔｓｐｒｏｖｅｔｈｅｆｅａｓｉｂｉｌｉｔｙｏｆｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄｗｈｉｃｈｃａｎｅｆｆｅｃｔｉｖｅｌｙｉｄｅｎｔｉｆｙｔｏｐｉｃ

ｋｅｙｗｏｒｄｓａｎｄｇｅｎｅｒａｔｅｅｖｅｎｔｓｗｉｔｈｈｉｇｈｒｅａｄａｂｉｌｉｔｙ．

Ｋｅｙｗｏｒｄｓ：ｍｉｃｒｏｂｌｏｇ；ｔｏｐｉｃｄｅｔｅｃｔｉｏｎ；ｌａｔｅｎｔＤｉｒｉｃｈｌｅｔａｌｌｏｃａｔｉｏｎ（ＬＤＡ）；ｗｏｒｄａｃｔｉｖｅｆｏｒｃｅ

　引言

微博数据隐藏着大量的话题。不同于传统的文本数据话

题提取，微博文本具有数据量大、单条文本短、无用信息多、隐

藏信息多等特点。如何针对微博数据提取出热点话题，在用户

行为分析、事件监测预防等方面具有重要的现实意义。

在对文本进行语义挖掘的研究中，许多经典的分类、聚类

算法被先后提出。其中，分类算法又称分类器，是一种监督学

习算法，主要用于在训练数据集的基础上来对真实数据进行分

类，其经典算法包括决策树模型（

ｄｅｃｉｓｉｏｎｔｒｅｅｍｏｄｅｌ）

［１］

、朴素

贝叶斯模型（ｎａｉｖｅＢａｙｅｓｉａｎｍｏｄｅｌ）

［２］

、支持向量机（ｓｕｐｐｏｒｔ

ｖｅｃｔｏｒｍａｃｈｉｎｅｓ

）

［３］

等；聚类算法是一种无监督学习算法，用于

对在某些方面相似的数据进行分类组织，经典算法主要有Ｋ

均值聚类（Ｋｍｅａｎｓｃｌｕｓｔｅｒｉｎｇ）

［４］

、谱聚类（ｓｐｅｃｔｒａｌｃｌｕｓｔｅ

ｒｉｎｇ）

［５］

、增量聚类（ｉｎｃｒｅｍｅｎｔａｌｃｌｕｓｔｅｒｉｎｇ）

［６］

等。

不管是聚类算法还是分类算法，都缺乏对每个数据类别进

行简洁有效的描述。针对这个问题又有主题模型的概念被提

出，其中经典算法主要有以下三种：ａ）ＬＳＡ（ｌａｔｅｎｔｓｅｍａｎｔｉｃ

ａｎａｌｙｓｉｓ

）

［７］

，它将文本从稀疏的高维词汇空间映射到低维的潜

在语义空间中来完成主题建模；ｂ）ＰＬＳＡ（ｐｒｏｂａｂｉｌｉｓｔｉｃｌａｔｅｎｔｓｅ

ｍａｎｔｉｃａｎａｌｙｓｉｓ

）

［８］

，它在ＬＳＡ的基础上引入了概率模型，通过

ＥＭ算法求解所需的概率矩阵；ｃ）ＬＤＡ

［９］

，在ＰＬＳＡ的基础上引

入了狄利克雷先验分布。

由于使用主题模型进行文本建模更符合真实的文档生成

过程，在近几年取得了长足的发展，在其基础上又衍生出了很

多改进的模型。例如，Ｇｅｒｒｉｓｈ等人

［１０］

提出了ＤＩＭ（ｄｏｃｕｍｅｎｔ

ｉｎｆｌｕｅｎｃｅｍｏｄｅｌ），可以识别出文档集合中最有影响力的文档；

Ｍｉｍｎｏ等人

［１１］

提出了ＤＭＲ（Ｄｉｒｉｃｈｌｅｔｍｕｌｔｉｎｏｍｉａｌｒｅｇｒｅｓｓｉｏｎ）主

题模型，可以指定某些特征后提取出相关主题。然而这些改进

都是在词袋（ｂａｇｏｆｗｏｒｄｓ）模型的基础之上进行的，即一篇文

档内的单词可以交换次序而不影响模型的训练结果。这就使

得提取出的主题只能使用一些无序的词进行表达，导致可读性

差、选取出的主题词不具有代表性等问题。针对此问题，Ｎ

ｇｒａｍ

模型

［１２］

假设第ｎ个词只与第ｎ－１个词有关，基于此进行

词关系分析，但是该模型对词关系的分析并不全面；相较于

Ｎ

ｇｒａｍ模型，词激活力模型（ｗｏｒｄａｃｔｉｖａｔｉｏｎｆｏｒｃｅ，ＷＡＦ）

［１３，１４］

以

词网的形式进行建模，考虑了更多的信息，融合了词语出现的

前后顺序、词对共现频率以及词对的平均距离。但是这类模型

随着语料库规模的增大，数据稀疏问题也会越严重。本文主要

针对微博文本的特性以及主题模型提取主题词的无序性，使用

第３３卷第７期

２０１６年７月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ３３Ｎｏ７

Ｊｕｌ．２０１６

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38715721

粉丝: 5
资源: 965

微博热点话题检测：结合词激活力与主题模型的摘要生成

论文研究-利用组合模型实现微博热点话题发现 .pdf

基于情感分析的微博热点话题用户群体划分模型 .docx

运用改进型LDA算法的电商微博热点话题研究.pdf

如何利用单次扫描算法和事件演化模型，结合时间序列分析法，实现在微博上对热点话题进行动态检测和分析？

微博热点预测的关键问题

使用LSTM模型进行微博文本情感分析

基于lstm深度学习模型的微博用户情绪分析

分类模型进行微博互动预测

基于word2vec和svm模型的微博中文评论情感分析

用Bert预训练模型读取微博文本生成对应词向量，然后将手动选取的种子词的词向量与Bert生成的词向量进行余弦相似度计算，可以获取和种子词相似度高的词语

最新资源