收稿日期:20141002;修回日期:20141117 基金项目:国家自然科学基金资助项目(61403238,61100138,71171148);山西省自然科
学基金资助项目(20140210221,2011011016-2);山西省回国留学人员科研项目(2013022)
作者简介:郭鑫(1982),女,山西太原人,讲师,博士,主要研究方向为社交网络、数据降维;陈千(1983),男(通信作者),讲师,硕导,博士,主
要研究方向为文本挖掘、机器学习(chenqian857@163.com);向阳(1962),男,教授,博导,博士,主要研究方向为数据挖掘、语义决策支持.
基于特征本体的文本流主题检测研究
郭 鑫
1
,陈 千
1
,向 阳
2
(1.山西大学 计算机与信息技术学院,太原 030006;2.同济大学 电子与信息工程学院,上海 201804)
摘 要:传统的主题检测方法以统计理论为基础,忽略了数据本身蕴涵的语义,带来了偏差严重、与样本数据高
度相关等缺点。针对以上缺点,面向文本流数据,提出一种基于特征本体的主题检测方法。首先构建文本特征
本体;其次,将较为复杂的文本特征本体看做是由若干主题组成的连通图,然后将主题连通图分解成单边图集
合;再次,将主题相似度计算问题转换为单边图贡献度和图相似度的计算问题;最后,对每一批新文本集检测是
否有新主题,从而使得主题的个数随着时间的推移而增加。在科技文献和新闻语料上进行实证研究,结果发现
阈值
δ
参数决定文本流中新主题出现的频率,且实验结果同经典主题模型基本保持一致。除此之外,同传统的
方法相比,提出的方法能更好地支持主题的语义表示,且适用于流数据,能增量实现主题检测,在应用上具有更
大的优势。
关键词:特征本体;主题检测;文本流
中图分类号:TP391 文献标志码:A 文章编号:10013695(2016)02039604
doi:10.3969/j.issn.10013695.2016.02.017
Topicdetectionintextstreambasedonfeatureontology
GuoXin
1
,ChenQian
1
,XiangYang
2
(1.SchoolofComputer&InformationTechnology,ShanxiUniversity,Taiyuan030006,China;2.SchoolofElectronics&InformationEngineer
ing,TongjiUniversity,Shanghai201804,China)
Abstract:Traditionaltopicdetectionmethodsmainlybasedonstatistics,whichignoringthesemanticsofthedataitself,and
thusbroughtsuchshortcomingsasseriousdeviationandhighlydependencyonsampledata.Aimingattextstream,thispaper
putforwardanoveltopicdetectionapproachbasedontextfeatureontology.Firstly,itbuilttextfeatureontology.Secondly,
complextextfeatureontologycouldbeseenascomposedofseveraltopicse.g.connectedgraph,whichcouldthendecomposed
intounilateralgraphcollection.Again
,thetopicsimilaritycomputationproblemcouldbecastintosimplegraphcontribution
andsimilaritycalculationproblem.Finally,foreachbatchofnewtextsetitcouldseeiftherewasanewtopic,sothatthe
numberoftopicswouldgrowwithtimepassedby.Empiricalresearchonliteratureandnewscorpuswasperformed,anditwas
foundthatthethresholdthedeltaparameterdeterminesthefrequencyofnewtopicsintextstream,andtheresultsarealmost
consistentwiththeclassicaltopicmodel.Inaddition,comparedwiththetraditionalmethod,theproposedapproachcansup
portthesemanticrepresentationofatopic
,andissuitableforthedatastream,whichcanrealizetheonlinetopicdetection,
andthushasmoreadvantagesinapplications.
Keywords:featureontology;topicdetection;textstream
主题检测是文本数据挖掘领域中一个重要研究方向,它是
自然语言处理、数据挖掘、人工智能、信息检索等多个学科的交
叉研究领域,对生物信息学、经济管理学、人文社会学等多个学
科产 生 深 远 影 响,已 经 广 泛 应 用 于 面 向 专 业 的 网 络 信 息 采
集
[1]
、舆情监测
[2]
、新闻媒体管理
[3,4]
、推荐系统
[5]
等。随着
Web2.0、大数据和云计算时代的到来,互联网上的文本数据
呈井喷式增长,在给用户带来海量信息的同时,也给用户搜索
和管理信息带来极大困难。文本流数据成为互联网上一种重
要的数据类型,这种带有时间标签的文本集,如新闻、博客、电
子邮件、科技文献等,一般是连续的、潜在无限的、随着时间不
断变化的文本数据序列。为了更好地对此类文本数据进行处
理、分析和挖掘,有必要对文本流环境下的主题检测方法进行
深入研究
[6]
。
"
相关研究
经典的 LDA主题模型主要采用统计生成模型,依赖于批
处理方式,针对的是文本集本身,无法适应于随时间关系的文
本流数据
[7]
。目前文本流主题检测研究通常有两种方法:
a)采用滑窗技术,如 Blei和 Lafferty提出的一种动态主题
模型(
dynamictopicmodel,dTM)。该 dTM将时间维度考虑到
LDA模型中去,基于时间序列建模方法,在潜在主题多项分布
的自然参数空间上和特定文档主题比例的多项分布参数空间
上使用状态空间模型,其中采用 logistic分布对特定文档主题
比例进行建模
[8]
,但窗口的尺度和偏移的粒度难以确定。
b)将连续时间上的对象看成一个随机变量,采用概率密
度估计方法,如 Wang等人
[9]
提出一种不考虑马尔可夫特征的
第 33卷第 2期
2016年 2月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol.33No.2
Feb.2016