微博话题发现：内容与结构化融合的特征词优化算法

193 浏览量更新于2024-08-28 收藏 997KB PDF 举报

在当前的社交媒体环境中，微博作为一种重要的信息传播渠道，其短文本特性使得话题发现面临挑战。由于微博文本中可能存在大量相同或相近但与主题关联不紧密的词语，这些词项会干扰文本间的精确相似度计算，从而影响话题的准确发现。为了克服这一问题，本文提出了一种新颖的特征词选择与相似度融合的微博话题发现方法。首先，该方法的核心在于特征词的选择。它结合了文本内容和结构化信息，通过深入分析文本的主题语义和上下文关联，设计了一种算法来筛选出那些既能体现文本主题又能减少无关干扰的关键特征词。这种方法不仅能有效地剔除无关词，还能确保选取的特征词具有代表性，从而提高了话题发现的精度。在计算文本间的相似度时，传统的方法可能过于依赖词频或者简单的词汇匹配，而忽略了语义和上下文的重要性。为此，论文作者对相似度计算策略进行了改进，引入了更为复杂的语义分析技术，如词向量模型（如Word2Vec或BERT），以及考虑了词语在不同语境下的多义性和权重分配，使得相似度评估更为精准。最后，特征词选择算法与改进后的相似度计算方法被巧妙地融合在一起，形成一个完整的微博话题发现流程。这个流程能够在大规模微博文本数据中有效地降低漏检率（即未发现相关话题的情况）和误检率（即错误地标记非相关话题为话题），从而显著提升话题发现的质量和效率。通过实验证明，相比于传统的微博话题发现方法，这种新型算法在话题发现的准确性上有了显著提升。具体表现为，平均漏检率和误检率得到了有效的控制，这为微博内容挖掘和用户兴趣分析提供了有力的支持，对于微博平台的信息组织和个性化推荐具有实际应用价值。总结来说，特征词选择与相似度融合的微博话题发现方法是一个创新性的解决方案，它在处理微博短文本复杂性方面展现出了优势，对于提升社交媒体数据分析的精确性和效率具有重要意义。

2017258-1

研究与开发

特征词选择与相似度融合的微博话题发现方法

陈红阳，汪林林，陈滢生，鲁江坤，左雪

（重庆人文科技学院计算机工程学院，重庆 401524）

摘要：微博短文本中存在一些相同或相近、但与主题关系不大的词项，对准确度量文本之间的相似性具有

较大的干扰作用，影响微博话题被发现的质量。提出一种基于文本内容与结构化信息相结合的特征词选择算

法，能有效提取具有代表性的特征词，并对文本、话题间相似度的计算策略进行改进，然后将特征词选择算

法与相似度计算方法融合，应用于微博文本数据实现话题发现。实验结果表明，本算法能有效降低话题发现

的平均漏检率与误检率，提高话题发现质量。

关键词：微博；特征词；选择；相似度；话题发现

中图分类号：TP391 文献标识码：A

doi: 10.11959/j.issn.1000-0801.2017258

A method of micro-blog topic discovery based on

feature words selection and text similarity

CHEN Hongyang, WANG Linlin, CHEN Yingsheng, LU Jiangkun, ZUO Xue

College of Computer Engineering, Chongqing College of Humanities Science and Technology, Chongqing 401524, China

Abstract: Some words existing in micro-blog short text have a bad effect on the accuracy of text similarity calcula-

tion, further affecting the quality of topic discovery. And these words are the same in shape or semantic meaning, but

remote from the topic. A novel method of feature words selection based on micro-blog short text content and struc-

tured information was proposed, which could effectively choose some important feature words from the text. Moreo-

ver, in computing the similarity between texts, an improvement on computing the similarity between the text and the

topic was made. Finally, the methods were combined together and applied to discover micro-blog topics. Experimen-

tal results show that the new method of topic discovery can effectively reduce the average missing rate and false de-

tection rate, and improve the quality of topic discovery.

Key words: micro-blog, feature word, selection, similarity, topic discovery

收稿日期：2017-04-27；修回日期：2017-08-29

基金项目：重庆市教委科技计划项目（No.KJ1601601）；重庆市重点产业共性关键技术创新专项项目（No.cstc2015zdcy-ztzx40007）；

国家自然科学基金资助项目（No.61173184）

Foundation Items: The Commission of Science and Technology Plan Project of Chongqing (No.KJ1601601), The Key Industrial Ge-

neric Technology Innovation Special Project in Chongqing (No.cstc2015zdcy-ztzx40007), The National Natural Science Foundation o

China (No.61173184)

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38697979

粉丝: 6
资源: 947

微博话题发现：内容与结构化融合的特征词优化算法

融合词语关联关系的自适应微博热点话题追踪算法

论文研究-基于LDA模型的微博用户推荐算法研究 .pdf

基于多视角聚类模型的微博文本数据挖掘算法研究.pdf

一种改进的单次通过主题检测方法

改进的微博话题检测：LSA与结构特性融合

自适应微博热点话题追踪：融合词语关联关系的新算法

词语关联提升的自适应微博热点话题追踪算法

迭代用户影响力算法CSIAI：内容与关系结构的融合

基于神经网络的短句语义向量计算与社交网络应用

数据产品中的推荐系统原理与实践

最新资源