混合模型提升微博交叉话题发现的效率与准确性

89 浏览量更新于2024-08-27 收藏 752KB PDF 举报

在信息技术日新月异的时代背景下，微博作为一种新型的信息分享和传播工具，因其信息量大且类型多样的特性，已经成为了人们获取新闻和观点的重要渠道。然而，传统的微博话题发现算法往往局限于单一话题的划分，忽视了话题间的内在关联，这在处理大量微博数据时存在一定的局限性。针对这一问题，论文《混合模型的微博交叉话题发现》由詹勇、杨燕和王红军三位作者在2013年的《计算机科学与探索》期刊上进行了深入研究。作者们提出了一种创新的方法，即采用西南交通大学思维与智慧研究所开发的中文分词系统，该系统以其较高的分词准确度和歧义识别能力，在处理微博文本时能够更精确地解析内容。他们构建了一个基于混合模型的微博交叉话题发现算法，该模型综合考虑了不同话题之间的关联性和个体文本的特征，旨在挖掘出具有交叉性质的话题，即一个话题可能同时关联到多个主题。混合模型在统计学中是一种结合了多种模型特性的方法，它能够更好地捕捉数据中的复杂模式。在微博交叉话题发现中，这个模型可能是通过概率论和机器学习技术，如贝叶斯网络或者隐马尔可夫模型，来分析和预测不同话题间的共同出现概率，从而发现那些潜在的跨领域或多层次的话题关联。论文的实验结果显示，这种混合模型的微博交叉话题发现算法在大规模微博文本数据集上的应用展现出了良好的可行性和有效性。通过对比和评估，它不仅提高了话题发现的精度，还能够揭示出隐藏在海量信息中的深层次话题结构，对于用户理解信息流、社交媒体分析以及商业智能等领域具有重要意义。此外，该研究还得到了中国国家自然科学基金（Grant Nos. 61170111, 61003142, 61134002）和中央高校基本科研业务费专项资金（Fundamental Research Funds for the Central Universities under Grant No. SWJTU11ZT08）的支持，体现了其研究价值的学术性和实用性。《混合模型的微博交叉话题发现》这篇论文为解决微博数据中复杂话题关系的挖掘问题提供了一个新的视角和方法，其研究成果对于提高微博内容理解和信息组织的效率具有重要的理论和实践意义。

詹勇，杨燕，王红军.混合模型的微博交叉话题发现[J].计算机科学与探索，2013，7（8）：747-753.

* The National Natural Science Foundation of China under Grant Nos. 61170111, 61003142, 61134002 (国家自然科学基金); the Fun-

damental Research Funds for the Central Universities of China under Grant No. SWJTU11ZT08 (中央高校基本科研业务费专项资金).

Received 2013-03, Accepted 2013-05.

CNKI 网络优先出版：2013-05-13, http://www.cnki.net/kcms/detail/11.5602.TP.20130513.1444.003.html.

混合模型的微博交叉话题发现

詹勇，杨燕

，王红军

西南交通大学信息科学与技术学院，成都 610031

Extracting Overlapping Topics from Micro-Blog Based on Mixture Model

􀆽

ZHAN Yong, YANG Yan

, WANG Hongjun

School of Information Science and Technology, Southwest Jiaotong University, Chengdu 610031, China

+ Corresponding author: E-mail: yyang@swjtu.edu.cn

ZHAN Yong, YANG Yan, WANG Hongjun. Extracting overlapping topics from micro-blog based on mixture

model. Journal of Frontiers of Computer Science and Technology, 2013, 7(8)：747-753.

Abstract: Micro-blog is a new platform to share and disseminate information quickly. It is characterized by huge

amount of scattered and diverse information. The most of traditional topics extraction algorithms are partitioning

method, which do not consider the relationship between the topics, so there are some limitations. This paper focuses

on the task of news topics extraction from large-scale short posts of micro-blog service. The word segmentation is

processed according to the characteristics of the micro-blog text using the Chinese word segmentation software with

high accuracy and ambiguity recognition, which is developed by Institute of Noetics and Wisdom, Southwest Jiaotong

Univ ersity. And then, this p aper proposes an overlappi ng topic detection algorithm based on m ixture mode l. The

experimental results prove the feasibility and validity of the algorithm.

Key words: micro-blog; overlapping topic detection; mixture model

摘要：微博具有信息量庞大，信息分散多样等特点，已经成为快速分享和传播信息的新平台。传统话题发现

算法大部分都是基于划分的，没有考虑话题之间的关联性，存在一定的局限性，因此研究了大规模微博文本集

上的话题发现问题。采用具有分词准确率较高、歧义识别特点的西南交通大学思维与智慧研究所中文分词系

统对文本进行分词处理，并提出了基于混合模型的微博交叉话题发现算法。实验结果表明，该算法具有一定

可行性和有效性。

ISSN 1673-9418 CODEN JKYTA8

Journal of Frontiers of Computer Science and Technology

1673-9418/2013/07(08)-0747-07

doi: 10.3778/j.issn.1673-9418.1305004

E-mail: fcst@vip.163.com

http://www.ceaj.org

Tel: +86-10-89056056

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38637093

粉丝: 5
资源: 951

混合模型提升微博交叉话题发现的效率与准确性

论文研究-基于增强的LDA模型微博热点话题发现 .pdf

利用组合模型生成微博热点话题事件摘要 (2016年)

运用改进型LDA算法的电商微博热点话题研究.pdf

双向微博用户网络的混合演进模型

微博

高斯混合模型

Web数据挖掘及其在微博话题检测中的应用研究.pdf

LDA模型在微博用户推荐中的应用1

利用Dirichlet过程混合模型改进的话题追踪方法

混合交通信号交叉口排队长度计算模型

最新资源