基于特征本体的文本流主题检测改进策略

55 浏览量更新于2024-08-26 收藏 1.29MB PDF 举报

本文研究的是"基于特征本体的文本流主题检测"这一领域，它在传统统计理论驱动的主题检测方法的基础上寻求创新。传统的主题检测往往依赖于统计方法，这可能导致检测结果受到数据噪声的影响，主题与样本数据高度相关，且在处理语义信息时存在局限性。针对这些问题，研究人员提出了针对文本流数据的一种新颖方法。首先，该研究的核心是构建文本特征本体，这是一种将文本的复杂特性抽象化的框架，有助于理解和表达文本的深层次含义。通过这种方式，文本被看作是由多个潜在主题构成的结构，类似于一个由主题构成的连通图。接下来，为了简化处理，这个复杂图被分解成一系列单边图，使得主题间的关联性和贡献度可以更直观地衡量。接着，文章将主题相似度的计算问题重新定义为单边图的贡献度和图相似度的计算，这种方法有助于发现新主题的出现，并随着文本流数据的不断更新而动态调整主题的数量。这种方法的一大优点是能够实时检测出文本流中的新主题，使得主题个数随时间增长，适应了流数据的特性。在实证研究方面，研究者选择了科技文献和新闻语料作为测试数据集，通过调整阈值δ来控制新主题出现的频率。结果显示，这个参数对主题检测的性能有着显著影响，而且提出的这种方法与经典的主题模型在效果上基本保持一致，表明其有效性。此外，相比于传统的主题检测方法，基于特征本体的方法在语义表示和流数据处理方面具有明显的优势。它不仅能够更好地捕捉文本的内在语义，还能够在数据流中增量式地实现主题检测，节省计算资源，提高效率。这对于实际应用，如社交媒体监控、新闻聚合或在线论坛分析等领域具有重大的实用价值。总结来说，这篇文章的主要贡献在于提出了一种新颖的主题检测策略，它利用特征本体的概念，有效地处理了文本流数据中的主题识别问题，提升了主题检测的准确性和灵活性，为实时和动态的主题分析提供了有力工具。

　　收稿日期：２０１４１００２；修回日期：２０１４１１１７　　基金项目：国家自然科学基金资助项目（６１４０３２３８，６１１００１３８，７１１７１１４８）；山西省自然科

学基金资助项目（２０１４０２１０２２１，２０１１０１１０１６－２）；山西省回国留学人员科研项目（２０１３０２２）

　　作者简介：郭鑫（１９８２），女，山西太原人，讲师，博士，主要研究方向为社交网络、数据降维；陈千（１９８３），男（通信作者），讲师，硕导，博士，主

要研究方向为文本挖掘、机器学习（ｃｈｅｎｑｉａｎ８５７＠１６３．ｃｏｍ）；向阳（１９６２），男，教授，博导，博士，主要研究方向为数据挖掘、语义决策支持．

基于特征本体的文本流主题检测研究



郭　鑫

１

，陈　千

１

，向　阳

２

（１．山西大学计算机与信息技术学院，太原０３０００６；２．同济大学电子与信息工程学院，上海２０１８０４）

摘　要：传统的主题检测方法以统计理论为基础，忽略了数据本身蕴涵的语义，带来了偏差严重、与样本数据高

度相关等缺点。针对以上缺点，面向文本流数据，提出一种基于特征本体的主题检测方法。首先构建文本特征

本体；其次，将较为复杂的文本特征本体看做是由若干主题组成的连通图，然后将主题连通图分解成单边图集

合；再次，将主题相似度计算问题转换为单边图贡献度和图相似度的计算问题；最后，对每一批新文本集检测是

否有新主题，从而使得主题的个数随着时间的推移而增加。在科技文献和新闻语料上进行实证研究，结果发现

阈值

参数决定文本流中新主题出现的频率，且实验结果同经典主题模型基本保持一致。除此之外，同传统的

方法相比，提出的方法能更好地支持主题的语义表示，且适用于流数据，能增量实现主题检测，在应用上具有更

大的优势。

关键词：特征本体；主题检测；文本流

中图分类号：ＴＰ３９１　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０１６）０２０３９６０４

ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００１３６９５．２０１６．０２．０１７

Ｔｏｐｉｃｄｅｔｅｃｔｉｏｎｉｎｔｅｘｔｓｔｒｅａｍｂａｓｅｄｏｎｆｅａｔｕｒｅｏｎｔｏｌｏｇｙ

ＧｕｏＸｉｎ

１

，ＣｈｅｎＱｉａｎ

１

，ＸｉａｎｇＹａｎｇ

２

（１．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒ＆ＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ，ＳｈａｎｘｉＵｎｉｖｅｒｓｉｔｙ，Ｔａｉｙｕａｎ０３０００６，Ｃｈｉｎａ；２．ＳｃｈｏｏｌｏｆＥｌｅｃｔｒｏｎｉｃｓ＆ＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒ

ｉｎｇ，ＴｏｎｇｊｉＵｎｉｖｅｒｓｉｔｙ，Ｓｈａｎｇｈａｉ２０１８０４，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｔｒａｄｉｔｉｏｎａｌｔｏｐｉｃｄｅｔｅｃｔｉｏｎｍｅｔｈｏｄｓｍａｉｎｌｙｂａｓｅｄｏｎｓｔａｔｉｓｔｉｃｓ，ｗｈｉｃｈｉｇｎｏｒｉｎｇｔｈｅｓｅｍａｎｔｉｃｓｏｆｔｈｅｄａｔａｉｔｓｅｌｆ，ａｎｄ

ｔｈｕｓｂｒｏｕｇｈｔｓｕｃｈｓｈｏｒｔｃｏｍｉｎｇｓａｓｓｅｒｉｏｕｓｄｅｖｉａｔｉｏｎａｎｄｈｉｇｈｌｙｄｅｐｅｎｄｅｎｃｙｏｎｓａｍｐｌｅｄａｔａ．Ａｉｍｉｎｇａｔｔｅｘｔｓｔｒｅａｍ，ｔｈｉｓｐａｐｅｒ

ｐｕｔｆｏｒｗａｒｄａｎｏｖｅｌｔｏｐｉｃｄｅｔｅｃｔｉｏｎａｐｐｒｏａｃｈｂａｓｅｄｏｎｔｅｘｔｆｅａｔｕｒｅｏｎｔｏｌｏｇｙ．Ｆｉｒｓｔｌｙ，ｉｔｂｕｉｌｔｔｅｘｔｆｅａｔｕｒｅｏｎｔｏｌｏｇｙ．Ｓｅｃｏｎｄｌｙ，

ｃｏｍｐｌｅｘｔｅｘｔｆｅａｔｕｒｅｏｎｔｏｌｏｇｙｃｏｕｌｄｂｅｓｅｅｎａｓｃｏｍｐｏｓｅｄｏｆｓｅｖｅｒａｌｔｏｐｉｃｓｅ．ｇ．ｃｏｎｎｅｃｔｅｄｇｒａｐｈ，ｗｈｉｃｈｃｏｕｌｄｔｈｅｎｄｅｃｏｍｐｏｓｅｄ

ｉｎｔｏｕｎｉｌａｔｅｒａｌｇｒａｐｈｃｏｌｌｅｃｔｉｏｎ．Ａｇａｉｎ

，ｔｈｅｔｏｐｉｃｓｉｍｉｌａｒｉｔｙｃｏｍｐｕｔａｔｉｏｎｐｒｏｂｌｅｍｃｏｕｌｄｂｅｃａｓｔｉｎｔｏｓｉｍｐｌｅｇｒａｐｈｃｏｎｔｒｉｂｕｔｉｏｎ

ａｎｄｓｉｍｉｌａｒｉｔｙｃａｌｃｕｌａｔｉｏｎｐｒｏｂｌｅｍ．Ｆｉｎａｌｌｙ，ｆｏｒｅａｃｈｂａｔｃｈｏｆｎｅｗｔｅｘｔｓｅｔｉｔｃｏｕｌｄｓｅｅｉｆｔｈｅｒｅｗａｓａｎｅｗｔｏｐｉｃ，ｓｏｔｈａｔｔｈｅ

ｎｕｍｂｅｒｏｆｔｏｐｉｃｓｗｏｕｌｄｇｒｏｗｗｉｔｈｔｉｍｅｐａｓｓｅｄｂｙ．Ｅｍｐｉｒｉｃａｌｒｅｓｅａｒｃｈｏｎｌｉｔｅｒａｔｕｒｅａｎｄｎｅｗｓｃｏｒｐｕｓｗａｓｐｅｒｆｏｒｍｅｄ，ａｎｄｉｔｗａｓ

ｆｏｕｎｄｔｈａｔｔｈｅｔｈｒｅｓｈｏｌｄｔｈｅｄｅｌｔａｐａｒａｍｅｔｅｒｄｅｔｅｒｍｉｎｅｓｔｈｅｆｒｅｑｕｅｎｃｙｏｆｎｅｗｔｏｐｉｃｓｉｎｔｅｘｔｓｔｒｅａｍ，ａｎｄｔｈｅｒｅｓｕｌｔｓａｒｅａｌｍｏｓｔ

ｃｏｎｓｉｓｔｅｎｔｗｉｔｈｔｈｅｃｌａｓｓｉｃａｌｔｏｐｉｃｍｏｄｅｌ．Ｉｎａｄｄｉｔｉｏｎ，ｃｏｍｐａｒｅｄｗｉｔｈｔｈｅｔｒａｄｉｔｉｏｎａｌｍｅｔｈｏｄ，ｔｈｅｐｒｏｐｏｓｅｄａｐｐｒｏａｃｈｃａｎｓｕｐ

ｐｏｒｔｔｈｅｓｅｍａｎｔｉｃｒｅｐｒｅｓｅｎｔａｔｉｏｎｏｆａｔｏｐｉｃ

，ａｎｄｉｓｓｕｉｔａｂｌｅｆｏｒｔｈｅｄａｔａｓｔｒｅａｍ，ｗｈｉｃｈｃａｎｒｅａｌｉｚｅｔｈｅｏｎｌｉｎｅｔｏｐｉｃｄｅｔｅｃｔｉｏｎ，

ａｎｄｔｈｕｓｈａｓｍｏｒｅａｄｖａｎｔａｇｅｓｉｎａｐｐｌｉｃａｔｉｏｎｓ．

Ｋｅｙｗｏｒｄｓ：ｆｅａｔｕｒｅｏｎｔｏｌｏｇｙ；ｔｏｐｉｃｄｅｔｅｃｔｉｏｎ；ｔｅｘｔｓｔｒｅａｍ

　　主题检测是文本数据挖掘领域中一个重要研究方向，它是

自然语言处理、数据挖掘、人工智能、信息检索等多个学科的交

叉研究领域，对生物信息学、经济管理学、人文社会学等多个学

科产生深远影响，已经广泛应用于面向专业的网络信息采

集

［１］

、舆情监测

［２］

、新闻媒体管理

［３，４］

、推荐系统

［５］

等。随着

Ｗｅｂ２．０、大数据和云计算时代的到来，互联网上的文本数据

呈井喷式增长，在给用户带来海量信息的同时，也给用户搜索

和管理信息带来极大困难。文本流数据成为互联网上一种重

要的数据类型，这种带有时间标签的文本集，如新闻、博客、电

子邮件、科技文献等，一般是连续的、潜在无限的、随着时间不

断变化的文本数据序列。为了更好地对此类文本数据进行处

理、分析和挖掘，有必要对文本流环境下的主题检测方法进行

深入研究

［６］

。

　相关研究

经典的ＬＤＡ主题模型主要采用统计生成模型，依赖于批

处理方式，针对的是文本集本身，无法适应于随时间关系的文

本流数据

［７］

。目前文本流主题检测研究通常有两种方法：

ａ）采用滑窗技术，如Ｂｌｅｉ和Ｌａｆｆｅｒｔｙ提出的一种动态主题

模型（

ｄｙｎａｍｉｃｔｏｐｉｃｍｏｄｅｌ，ｄＴＭ）。该ｄＴＭ将时间维度考虑到

ＬＤＡ模型中去，基于时间序列建模方法，在潜在主题多项分布

的自然参数空间上和特定文档主题比例的多项分布参数空间

上使用状态空间模型，其中采用ｌｏｇｉｓｔｉｃ分布对特定文档主题

比例进行建模

［８］

，但窗口的尺度和偏移的粒度难以确定。

ｂ）将连续时间上的对象看成一个随机变量，采用概率密

度估计方法，如Ｗａｎｇ等人

［９］

提出一种不考虑马尔可夫特征的

第３３卷第２期

２０１６年２月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ．３３Ｎｏ．２

Ｆｅｂ．２０１６

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38608875

粉丝: 3
资源: 992

基于特征本体的文本流主题检测改进策略

特征本体驱动的文本流主题检测方法

基于本体的学术论文抄袭检测系统框架

主题树模型：深入挖掘文本流中的时空语义主题

基于特征本体的文本流主题演化

Rare-disease-identification:从基于文本的临床笔记中基于本体论的罕见疾病识别

基于本体的语义相似度和相关度计算研究综述

基于主题树的主题结构建模研究

优质课件 北京大学研究生课程文本挖掘 文本数据挖掘PPT教程（共72页）TextMining12-本体Ontology.pptx

基于文本挖掘的巴基斯坦BIOPAK闪光器流行病监测与检测_BIOPAK Flasher Epidemic disease mon

Discriminative Language Editor:基于本体的歧视性语言编辑器-开源

最新资源

优质课件北京大学研究生课程文本挖掘文本数据挖掘PPT教程（共72页）TextMining12-本体Ontology.pptx