没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报使用BN-gram和Doc-p的印度尼西亚推文的趋势主题检测IndraPadan,Edi Winarko,Reza Pulungan印度尼西亚日惹Gadjah Mada大学数学和自然科学学院计算机科学和电子学系阿提奇莱因福奥文章历史记录:2017年9月5日收到2017年12月21日修订2018年1月15日接受2018年1月31日在线提供保留字:趋势主题检测TwitterBN-gram文档枢轴A B S T R A C T关于趋势主题检测的研究,特别是在Twitter上,已经增加,并且已经开发了用于检测趋势主题的各种方法。这些研究大多集中在用英语写的推文上。针对印尼推文的趋势话题检测研究相对较少。在本文中,我们比较了两种方法,即文档枢轴和BN-gram,用于检测印度尼西亚推文的趋势主题。在我们的实验中,我们研究了不同的主题,n-gram,词干和聚合的数量对所产生的趋势主题的质量的影响。我们通过比较两种算法与本地新闻和Twitter热门话题中发现的热门话题来衡量热门话题检测的准确性。我们的实验结果表明,使用十个主题产生最高的主题召回;在BN-gram中使用三元组导致最高值的主题召回;并且使用聚合降低了产生的趋势主题的质量。总体而言,BN-gram的主题召回值高于文档枢轴。©2018作者制作和主办:Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍趋势主题,也称为新兴趋势或新兴主题(Becker,2011),是随着时间的推移兴趣和实用性不断增长的研究领域(Kontostathis等人,2004年)。热门话题可以分为三种类型(Cvijikj和Michahelles,2011):破坏性事件,流行话题和日常生活。破坏性事件是引起全球关注的事件或现象,如地震和海啸。热门话题可能与一些过去的事件,名人,产品或品牌仍然流行了很长一段时间,如可口可乐和迈克尔杰克逊。日常生活是与一些常见短语相关的热门话题,如“晚安”或生日祝福。在本文中,我们希望根据印度尼西亚的破坏性政治事件生成趋势主题。基于新闻文本内容的热点话题检测主要有三种方法,即基于文档主元的热点话题检测、基于特征主元的热点话题检测和基于概率的热点话题检测。*通讯作者。电子邮件地址:indra@budiluhur.ac.id,indra@mail.ugm.ac.id(Indra)。沙特国王大学负责同行审查tic主题模型(Aiello等人,2013; Petkos等人,2014年a、b)。通过基于文档之间的相似性对文档进行聚类来执行基于文档枢轴的趋势主题检测(Aiello等人,2013; Andoni等人,2014; Charikar,2002; Indyk和Motwani , 1998; Petrovic 等 人 , 2010; Ravichandran 等 人 , 2005年)。特征枢轴基于使用来自文档的一些特征(诸如术语和n-gram)的文档聚类(Aiello等人,2013; Benhardus和Kalita,2013; Martin和Göker,2014; Petkos等人,2014年a)。另一方面,概率主题模型基于文档中的一些特征(诸如术语或n元语法)的概率(AlSumait等人,2008; Blei等人,2003;Ge等人,2013; Wang等人, 2012年)。根据其目的,印尼的热门话题检测可以分为两类。第一个目标是从事件、政治运动、城市化等中生成主题(Mazumder等人,2013;Oktafiani等人,2012; Purwitasari等人,2015; Sitorus等人, 2017年)。 Oktafiani等人(2012年)讨论的方法使用了NLP、图概念和网络分析方法的组合,为雅加达的洪水事件和州长选举事件生成主题。印度尼西亚几个省份的激进政治运动是根据Wahid研究所的数据验证的推文中表达的激进情绪检测出来的(Mazumder等人,2013年)。在雅加达、茂物、丹格朗和贝卡西等几个地区进行了城市监测的趋势主题检测(Sitorus等人,2017年)。此外,Purwitasari等人(2015)旨在使https://doi.org/10.1016/j.jksuci.2018.01.0051319-1578/©2018作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comIndra et al./Journal of King Saud University通过使用K-Medoids方法将Twitter上出现的各种问题分类为集群。聚类的结果,然后被用来作为摘要的新闻文章发表在Kompas。第 二 个 目 标 是 详 细 描 述 趋 势 主 题 ( Hariardi 等 人 , 2016年 ;Winatmoko和Khodra,2013年)。热门话题在Twitter上显示为标签和关键字;这只会让它们更难理解。因此,进行了研究以总结一组主题标签,从而使用TF-IDF和短语强化的组合在Twitter上生成更详细的信息(Hariardi等人, 2016年)。随后,Winatmoko和Khodra(2013)旨在提供基于三个主要阶段生成的趋势主题的更全面描述,即主题分类(使用余弦相似度),句子提取(使用基本和混合TF-IDF)和句子聚类(使用TF-IDF和基于距离的方法)。在这项研究中,我们希望将BN-gram和docu- ment pivot应用于一般用途的趋势主题检测,尽管我们的案例研究仅限于政治领域的趋势主题检测。根据它们的来源,趋势主题账户被分类为真实账户和活动账户(Mafrur等人,2014年a、b)。真实账户用于交流或发推文,但不用于垃圾邮件、促销或竞选活动。另一方面,竞选账户用于政治竞选目的。真实或活动帐户可以根据一些特征来识别,例如创建日期,推文内容,推文时间例如,来自活动帐户的推文通常包含用于特定目的的相同含义印尼的竞选账户通常会生成句子不同但意思相同的推文,而不是基于电视上的政治节目。这与Pedersen et al.(2015),他表明Twitter已被广泛用于查看电视上显示的政治辩论的公众反应。在本文中,我们比较了两种方法来检测趋势主题的推文在印尼语。比较的方法有文档主元法和特征主元法BN-gram。在以前的研究中(Aiello等人,2013; Kaleel和Abhari,2015; Petrovic等人,2010年),这两种方法进行了比较,以检测英语推文中的热门话题。使用具有局部敏感散列(LSH)聚类的文档枢轴来检测趋势主题(Kaleel和Abhari,2015; Petrovic等人,2010),而BN-gram用于检测趋势主题(Aielloet al.,2013; Martin and Göker,2014; Tembhurnikar andPatil,2015)。正如Aiello等人(2013)所报告的那样,BN-gram在检测趋势主题方面比文档枢轴实现了更高的准确性。印尼推文中的趋势主题的检测在预处理阶段需要不同的词干和停止词。虽然Aiello等人。(2013)使用波特词干和英语停止词,在这项研究中,我们使用Adriani等人。s(2007)词干和Tala的印尼语停用词(Tala,2003)。 本研究将调查使用不同词干和停用词本文本文的贡献是:1. BN元和文档枢轴与LSH聚类应用于印度尼西亚推文的比较。2. 分析使用BN-gram中的n-gram变化对印度尼西亚推文趋势主题质量的影响。本研究中使用的n元语法类型是一元语法到六元语法。论文的其余部分组织如下:第2节介绍了相关的工作,第3节提供了对趋势主题检测的在第4节中,我们介绍了实验结果,然后在第5节进行讨论和分析。第六节是论文的总结。2. 相关工作基于文本内容的趋势主题检测是基于语料库中的一组数据的文本的主题检测的衍生物(Petkos等人,2014年a、b)。基于文本的主题检测使用三种方法:基于文档枢轴、特征枢轴和概率主题模型(Aiello等人,2013; Panagiotou等人,2016年b)。基于文档枢轴的方法是一种趋势主题检测技术,其使用基于文档之间的相似性的文档聚类(Aiello等人,2013; Panagiotou等人,2016年b)。该技术是基于对使用局部敏感散列(LSH)方法的第一故事检测(FSD)的研究而开发的(Allan等人,1998年)。LSH用于区分事件和非事件,并生成高精度的聚类。然而,这种技术产生的召回值很低(即,得到的簇的大小太小)。Petrovic等人(2010)通过将以前的LSH方法修改为新的LSH来改善这种低召回值。新的LSH使用最近邻加速文档之间的聚类过程。Aiello等人(2013)开发了Doc-p,其中包括新的LSH,并结合了聚类排名的阶段,以检测英语推文中的热门话题。基于特征选择的方法基于特征选择对文档执行聚类(Aiello等人, 2013年)。文档的特征基于阈值方法的特征之一是TF-IDF(Benhardus和Kalita,2013年; Cvijikj和Michahelles,2011年;Kavipadawat和Murata,2010年)。同时,基于概率主题模型的特征 之 一 是 文 档 突 发 ( Aiello et al. , 2013; Fung 等 人 , 2005;Kleinberg,2002; Mathioudakis和Koudas,2010)。突发是具有比其他文档更高的出现频率并且频率超过特定阈值的文档(Panagiotou等人,2016年a)。连续出现的一组文档中的突发可以用无限状态自动机来建模(Kleinberg,2002)。检测到的突发形式的特征与其他突发特征聚类以检测相同的事件(Fung例如,2005年)。在形成的集群上,进行趋势分析检测,以识别成为每个集群趋势的每个事件(Mathioudakis和Koudas,2010)。Mathioudakis和Koudas(2010)的研究由Aiello等人(2013)进一步发展,其中形成的事件集群被发展成Twitter上的趋势主题,其中特征被聚类成n-gram;因此是BN-gram 。在(Martin等人,2013),BN-gram通过将新公式添加到主题排名中来开发:而在(Aiello et al.,2013),主题排名基于文档频率-逆文档频率(DF-IDF),在(Martin et al., 2013年),它是基于每个主题中的总术语和与主题相关的总推文的计算(基于主题长度加权)。实验结果表明,新公式产生的主题召回率高于DF-IDF排序。 与在(Martinet al., 2013年),BN-grams(Martin和Göker,2014年)是通过添加主题标签和多样性测量来开发的,以删除与集群中的特定主题无关的推文;这在(Aielloet al., 2013年)。Aiello等人(2013)进行了一项关于趋势主题检测方法的研究,其中将BN-gram与LDA,Doc-p,基于图的特征枢轴(GSP-p),频繁模式挖掘(FPM)和软频繁模式挖掘(SFPM)进行了比较。他们的结果表明,BN-gram在主题召回率,关键字精确度和关键字召回率方面达到了最高的准确率X XPnNnu268Indra等人 /Journal of King Saud University- Computer and Information Sciences 31(2019)266- 274Aiello et al.(2013)中的BN-gram和Doc-P被用来检测英语推文中的热门话题。本研究提出使用BN-gram和Doc-P来检测印度尼西亚推文中的热门话题。对于英语的推文,BN-克产生更高的主题召回比Doc-P。要确定是否BN-克应用于确定印尼推文的趋势主题仍然高于Doc-P构成了本研究的挑战3. 趋势主题检测本节介绍文档枢轴和BN-元语法的基本概念3.1. 文档枢轴文 档 枢 轴 方 法 由 四 个 步 骤 组 成 ( Aiello 等 人 , 2013; Kaleel 和Abhari,2015; Petrovic等人,2010年):集群使用LSH的推文,消除其成员低于阈值的聚类,计算每个聚类的分数,以及主题排名。在这四个步骤开始之前,具有相同的位数组签名(Kaleel和Abhari,2015)。一个文档是在一定时间内发布的几条推文(Benhardus和Kalita,2013)。在本研究中,位阵列信号是17位长。第三,冲突的推文,即具有与其他推文相同的位数组签名的那些推文,被包括在哈希表集合S中的相同桶中。第四,对S中的推文计算余弦相似性。在第五步中,如果余弦相似度得分超过某个阈值,则推文将被包括在同一个聚类中;如果余弦相似度低于阈值,则将形成新的聚类。步骤2. 删除成员低于阈值的聚类本研究中使用的阈值为2;因此,成员少于2的聚类将被删除。步骤3. 每个聚类的得分的计算聚类的得分由等式定义。(1):jcjjwordsij使用标记化(tokenization)和词干提取(stemming)对使用时间聚合分组为若干时间间隔的数据进行预处理。分数c¼1/1exp-pwij1第1页步骤1. 使用LSH使用LSH对推文进行聚类有五个步骤(Kaleel和Abhari,其中pwij是给定所使用的语料库的聚类中的文档i中的项j(2))并由(Aiello et al.,2013; 2010年版):2015年,如图1所示。首先,创建一个字典,它由收集的tweet的唯一词汇表组成。词典中的每一个词条都有一个索引词,它是一个句子中的单个单词pwjcorpusNwduð2Þ(El-Fishawy等人,2013年)。其次,基于字典中的索引项,每个收集 的 tweet 被 转 换 成 位 数 组 签名 , 并 被 包 括 到 哈 希 表S 的 集 合 中(Martin et al.,2015年)。LSH方法使用k位和L个哈希表,当且仅当两个文档其中Nw是语料库中术语w的总出现次数,Nu是术语u的总出现次数,d是常数平滑。 在该研究中,d被设置为0.5(Aiello等人, 2013年)。 语料库同时是词的集合和文档的集合(Rzeszutek等人,2010年)。图1.一、使用LSH对推文进行聚类(Kaleel和Abhari,2015)。. PtDF1不2þIndra et al./Journal of King Saud University步骤4. 主题排名热门话题以一组关键词的形式表示组平均。N-gram基于它们的距离被分类为聚类,该距离由Eq.(四):在每个集群中。聚类是根据每个聚类的得分进行排序的。d-1-Að4Þ聚类,得分最高的聚类将成为一个热门话题。3.2. BN-克BN-gram方法包括三个步骤,如图2所示,即计算DF-IDFt,n-gram聚类和主题排名。在第一步中处理推文之前,基于时间的聚合接近度在当前和先前时隙中收集的推文经历标记化预处理、词干提取和聚合。在本研究中,使用了两种聚合,时间和主题聚合。执行时间聚合以基于每个时隙中的时间接近度来收集推文。在收集时隙内的推文之后,将在每个时隙中执行主题聚合,以使用LSH方法基于它们的相似性来组合推文(Petrovic等人, 2010年)。步骤1. DF-IDF t的计算对于从推文集合中提取的每个n元语法,计算其DF-IDFt。n元语法是由n个连续的语法(符号,字母甚至单词)组成的广义单词,因为它们在文本中使用(Egghe,2005)。DF-IDFt基于在特定时隙处的一些推文中的n-gram出现的频率,与在一些先前时隙中的n-gram出现的频率一致。DF-IDFt由Eq. (3):12min fB; Cg其中d= g; g= n元语法g1和g2之间的距离,A是包含n元语法g1或g2的推文的数量,B和C是包含n元语法g1和n元语法g2的推文的数量,分别步骤3. 主题排名每个聚类代表社交媒体中发生的一个主题或事件。事件是在特定的时间和地点发生的事情,以及所有必要的条件和不可避免的后果(Kaleel和Abhari,2015)。一个主题是一个开创性的事件或活动,以及所有直接相关的事件和活动(Kaleel和Abhari,2015)。聚类基于它们的DF-IDFt的分数进行排序。包含具有DF-IDFt的最高得分的n-gram的聚类表示被最广泛讨论的主题。这个集群是趋势主题的代表4. 实验评价4.1. 数据集该研究使用了六个数据集,即P1,P2,P3,P4,P5和P6,每个数据集分别由6,630,21,306,74,790,5327,807和2527条推文组成。P1、P2和P3分别于2016年6月23日、11月14日和11月28日至12月1日采集。P4、P5和P6在12月13日、14日和16日爬取DF- IDFt¼日志东风i1j ii-j1:boost300þ12017年,分别。在收集的推文中,有些被省略,因为它们不包含任何文本(空),也不是用印度尼西亚语写的。这些数据集是根据政治人物、行政机构、立法机构、司法机构和其他机构其中,dfi是在时隙i处的一些推文中的n-gram出现的频率,dfi-j是在先前的i-j时隙中的一些推文中的n-gram出现的频率,并且t是所有时隙的数量。提升分数是某些术语的分数,这些术语可以在推文中的每个句子中被分类为人、位置或组织。如果该术语属于人员、位置或组织类别,则其提升分数为1.5,否则为1(Aiello等人, 2013年)。步骤2. N-gram聚类将一些n-gram合并成集群可以提供有关趋势主题的更真实,完整和可靠的信息。使用层次聚类进行n-gram的合并机构、政治事件标签、州长或副州长候选人的姓名以及政党的名称此外,由于没有与数据集收集期间出现的政治事件相关的关键词,因此增加了新的关键词。本研究中的趋势主题检测并不涉及特定事件。相反,人们预计,在这项研究中的趋势主题的检测可以产生的事件,还没有获得领先的新闻媒体的报道地面真相由十个主题组成,基于本地新闻中的热门话题构建。地方新闻中的热点话题是新闻读者阅读量最大的新闻,被称为最受欢迎的新闻。Ground truth包含一组关键词,这些关键词基于在检测到趋势主题后第二天拍摄的最受欢迎的新闻图二、 在BN-gram中聚类推文(Aiello等人, 2013年)。;;¼ ð Þ270Indra等人 /Journal of King Saud University- Computer and Information Sciences 31(2019)266- 2744.2. 初步数据集分析进行初步的数据集分析以检查数据集用于趋势主题检测的适合性。进行了三项测试,即确定相关推文的百分比,确定媒体和非媒体推文的比例,以及计算每个数据集中的熵分布。相关推文的百分比由手动标记或培训确定。标签是通过从每个数据集中随机选择250条推文的样本来执行的所选tweets表2来自媒体和个人账户的推文总数比例数据集媒体个人%培养基P12377百分之十一点五P215185百分之七点五P312188百分之六点零表3地面真相的例子。在数据集期间,根据与印度尼西亚政治事件的相关性或不相关性进行识别,并根据数据集时间期间标题(标题)新闻关键词由专家组成。表1显示了从三个数据集中随机收集的推文的相关性百分比。P1、P2和P3中相关推文的年龄百分比分别为83.6%、80%和88%。来自媒体和个人账号的推文比例由人工标注决定。标签是通过在每个数据集中随机选择200个推特账户来执行的。挑选工作由专家进行。专家们将这些账户与全国新闻数据中列出的媒体电子邮件和姓名进行了比较2016年自媒体账号和个人账号的推文占比如表2所示,其中自媒体账号在P1、P2、P3的推文占比分别为11.5%、7.5%、分别为6%熵分布用于度量数据集中术语的多样性。高熵值意味着不确定性和术语在语料库中的分布非常广泛。这扩大了形成话题的可能性,影响了热门话题的检测难度。熵由Eq定义。(五):熵1/4-Xnilog。ni5P1 Jun. 二十三岁,2016(09:25-(10:25)P2 11月十四岁,2016(10:30-(下午1时30分)P3 11月28- Dec. 一、2016Kata richard eks temanahok soal fotonya denganseragam pdip dan ormasdoga(理查德(前朋友Ahok)说他的照片与pdip制服和doga组织)Setya NovantoLayangkanTeguranTertulis untuk AburizalBakrie(Setya Novanto给Aburizal Bakrie写信谴责)Terbukti Korupsi 12 JutaDollar AS,BrigjenTeddy Divonis SeumurHidup(贪污1200万美元,Teddy准将被判终身监禁)richard; sukarno; soal;fotonya; seragam;pdip;ormas; palea.(Richard;Sukarno; picture;uniform; pdip;organizations; UCLA)evaluasi; pendukung;ahok; goyah; golkar;fadel; muhammad.(evaluation; supporter;ahok; faltering; Golkar;fadel; muhammad)brigjen; teddy; korupsijutaan; dollar; vonis;seumur; hidup.(brigjen;teddy; corrupt; million;dollar; sentenced for life)我NN其中ni是数据集中项i的出现次数,N是数据集中项的总数。在这项研究中,P1,P2和P3的熵值分别为38.89,53.87和104.29,这意味着P1的趋势主题检测将比P2和P3更容易。4.3. 评价方法通过比较由该方法产生的主题数量与专家创建的地面真实值,对BN-gram和Doc-p方法的性能进行了在本研究中,我们聘请了两位专家,即一位博士讲师。他是一名政治学教授,一名印尼通讯社工作人员,曾为印尼三个最受欢迎的新闻网站(Kompas.com、Tempo和Detik.com)撰稿。用作基础事实的关键词是描述媒体中新闻的本质的关键词,并且通过使用三个标准来选择:与热门话题相关、在热门话题出现的时间前后、来自官方媒体并且随后成为热门新闻表3中显示了地面实况中关键字的几个示例。本文中的所有评估都使用三个指标:主题召回率(TR),关键字精度(KP)和关键字召回率(KR)。主题召回率(TR)是趋势主题与地面真相中的主题的比率(公式10)。(6))。关键词精确度(KP)是热门主题关键词的比率,表1三个数据集中推文的相关性百分比数据集相关不相关%相关P1 209 41 83. 6%P2 200 50 80.0%P3 220 30 88.0%将与地面实况关键词一致的关键词添加到趋势主题中的所有关键词(等式1)。(七))。关键词召回率(KR)是与地面实况关键词一致的趋势主题关键词与地面实况中的所有关键词的比率(等式1)。(8))。通常,它们被定义为:TRjGT\ BTj6jGTjKPjKGT\ KBTjKBTj和KRjKGT\ KBTj8KGTj其中GT是基础事实中的主题的集合,BT是趋势主题的集合,KGT是基础事实中的关键词的集合,并且KBT是趋势主题关键词的集合。4.4. 评价结果4.4.1. 主题数量的影响在相同的时隙上用地面真值对BN-gram和Doc-p方法的第一性能进行了评估我们在实验中测量的主题数量地面实况在每个时段由10个主题组成。通过比较每个主题数的准确率得分来衡量方法的性能。在这个实验中,我们想分析增加这些方法产生的主题数量是否也会增加整体准确率。图3描绘了由BN-文法和Doc-p针对不同数量的主题产生的主题召回值。BN-gram方法产生的趋势主题具有比Doc-p更高的准确率,这表明BN-gram的主题召回率(TR)值高于Doc-p。Indra et al./Journal of King Saud University图三. 题目数量对题目回忆的影响。Doc-p用于三个数据集。当主题的数量变化时,关键字精确度和召回率保持不变(为了简洁起见,没有显示)。主题召回值随着主题数量的增加而增加。P1比P2和P3产生更多确定的趋势主题。这是因为P1具有较少的推文,并且也具有比P2和P3相对较短的抽奖期。因此,P1比P2和P3具有更低的难度和更高的准确性。这与第4.2节中报告的熵的结果一致,其中P1与P2和P3相比具有最小的熵值。实验还表明,BN-gram比Doc-p产生更多与现实生活新闻一致的主题。这是因为BN-gram中基于频率的聚类原理与基于阈值和相似度的Doc-p相比,提高了趋势主题检测的准确性。4.4.2. BN-文法中n-文法变化的影响图4描绘了通过改变所使用的n-gram的趋势主题检测的准确性。使用的n元语法是unigram到sixgram。Trigram比其他n-gram产生更高的准确性。在P1和P2中,与一元和二元相比,三元组具有最高的主题回忆;然而,在P3中,三元组产生的主题回忆低于二元组。这是因为推文数量更少P1和P2的tweet收集周期也比P3的短。包含更多描述现实生活中事件的事实关键字的主题来自二元语法。Bigram具有比其他n-gram更高的关键字精确度和关键字召回值在P1和P3中使用二元语法也比其他n-gram产生更高的关键字精度和关键字值因此,使用八卦会导致更好地描述现实生活中事件的热门话题然而,为了获得具有更多事实关键字的趋势主题,并且包含与本地新闻一致的主题,建议使用二元组和三元组。图4显示了使用unigram到sixgram的趋势主题检测的详细准确性。在这三个图中,使用三元语法到六元语法产生了相同的准确度,P1(主题召回率、关键字精确度和关键字召回率的值分别为0.556、0.921和0.824)和P3(主题召回率、关键字精确度和关键字召回率的值分别为0.5、0.692和0.353),P2相对接近(主题召回率、关键字精确度和关键字召回率的值分别为0.3、0.6和0.9我们可以得出结论,使用三元组产生的准确性水平几乎与四元组,五元组和六元组相同这是因为三元组包含三个术语,在印尼语语法中代表主语、谓语和宾语模式。因此,使用三元语法产生的句子结构在印度尼西亚语中比由一元语法或二元语法产生的句子结构更容易理解八卦产生的话题也与当地媒体的新闻高度相似。见图4。 n-gram变量对准确性的影响。272Indra等人 /Journal of King Saud University- Computer and Information Sciences 31(2019)266- 2744.4.3. 词干的效果在第三个实验中,我们确定了词干对趋势主题检测准确性的影响。总的来说,在P1中使用词干分析提高了趋势主题检测的准确性。本实验中使用的主题数量为5。在BN-gram和Doc-p中,词干提取和非词干提取的主题回忆率分别为20%和40%,而无词干提取的主题回忆率分别为0%和63.6%实验表明,与没有词干挖掘产生的主题相比,使用BN语法中词干挖掘的来自P1的趋势主题的质量恶化了20%。在Doc-p中,词干处理的使用也提高了制作的热门话题。这在带有词干的Doc-p的主题回忆中是明显的,其为0%;这意味着所产生的趋势主题与当地媒体中的主题完全不相关。这是因为在词干提取过程中,一些不应该被删除的印尼语单词的前缀或后缀被删除了。另一个原因是Adriani等人s(2007)的词干提取仍然无法检测到新的词汇表,因此产生不准确的词干提取;例如,术语“jokowi”变成了“jokow”。4.4.4. 聚集变异对预处理的影响从Twitter生成的主题的检测具有质量差的信息的问题,因为推文通常包含短句、俚语和缩写。为了解决这个问题,我们将tweets聚合到数据集中,以创建包含更多信息的文档,从而产生更好的主题结果。推文聚合产生四个数据集。首先,通过在时间上连续地组合每2000条推文(时间聚合2000)。第二,通过在时间上连续地收集每4000条推文(时间聚合4000)。第三,在每个时间段中,使用LSH方法(主题聚合)基于它们的相似性组合推文。第四,通过在特定时间段连接推文,而不管时间的相似性和接近性(无聚合)。在每个数据集上,应用BN-gram和Doc-p方法进行趋势主题检测。总体而言,P2中聚合的使用降低了趋势主题检测的准确性。比较的聚合类型是主题聚合、2000条tweet的时间聚合、4000条tweet的时间聚合和无聚合。结果如图5所示。使用10个主题的无聚合产生趋势主题的最高准确性,即BN-gram中的主题召回值为38.1%。与Doc-p相比,使用主题聚合和不聚合(与时间聚合相反)提高了BN-gram的准确性。这是因为使用主题聚合和不聚合生成的主题包含一组比使用时间聚合生成的主题具有更高相似性的推文,因此生成的主题更具体,更集中,不会混淆。时间聚合2000和4000的使用仅提高了Doc-p的准确率。在P2中,使用时间聚合2000和4000的Doc-p的主题召回具有相似的33.3%的准确率。相反,时间聚合降低了BN-gram的准确性。这是因为时间聚合包含更多的多个tweets,具有更复杂的术语分布。 因此,通过时间聚合产生的主题包含几个主题的混合,并且较少产生的主题与本地新闻一致。4.4.5. 建议的趋势主题和Twitter的趋势主题的比较为了将我们提出的趋势主题检测方法与Twitter的趋势进行比较,我们执行以下三个步骤。 首先,在特定的一天,我们使用BN-gram或Doc-p方法生成趋势主题。第二,在接下来的几天里,一个包含一组基于Twitter热门话题的关键词的地面事实。第三,我们从两个热门话题的结果中测量基于话题召回的准确性。在P4中,使用10个趋势主题的评估仅为我们的方法和Twitter的趋势主题产生两个相似的趋势主题图6描绘了由BN-语法和Doc-P产生的各种数量的主题与Twitter的热门主题的主题召回值Doc-p产生的趋势主题具有比BN-gram更高的准确性,这由三个数据集的Doc-p的主题召回值高于BN-gram的主题召回值指示。当主题数量增加时,主题召回值保持不变。P4比P5和P6产生更多确定的趋势主题。这是因为P4大于P5和P6。实验还表明,Doc-p比BN-gram产生更多与Twitter趋势主题一致的主题。这是因为Doc-p中基于相似性和阈值的聚类原理与基于频率数量的BN-gram相比提高了5. 讨论及分析对每个实验结果的评估产生了几个发现。主题回忆值的增加与测试主题数量的增加一致。这是因为生成的主题数量越多,本文中的热门主题与热门新闻媒体的热门主题之间的相似性概率就越高。在Aiello et al.(2013)中,仅在Doc-P中发现趋势主题数量的增加与主题召回值的增加成图五. 聚合变异对总回忆的影响。Indra et al./Journal of King Saud University见图6。 比较建议的趋势主题和Twitter一般来说,在BN-元语法中使用三元语法在三个数据集中的两个中产生最高的主题召回。这是因为使用三元组来确定主题的趋势适应了主语、谓语和宾语(SPO)的模式。这三个组成部分构成了印尼语句子的基本结构。因此,由八卦生成的热门话题与当地媒体的热门新闻具有更高的相似度。Aiello et al.的研究(2013)没有使用n元语法的变化来测试趋势主题,这将本测试与Aiello等人的研究区分开来。( 2013年)。BN-gram和Doc-P中的词干对所产生的趋势主题产生负面影响。这加强了Aielloet al.(2013)的研究。原因是词干的使用导致省略了任何印度尼西亚语术语的前缀和后缀,使得印度尼西亚语热门话题与当地新闻具有较浅的相似性聚集类型的变化对所研究的每种方法都有不同的影响。在所有类型 的 聚 合 中 , BN-gram 中 无 聚 合 的 实 现 这 证 实 了 Aiello 等 人(2013)的聚集试验结果。此外,在Doc-P中的时间聚合的应用产生了最高的主题召回值在所有类型的聚合,而在Aiello等人的主题聚合。(2013)在Doc-P中产生了最高的主题召回。这种差异的存在是因为时间聚合包含一组彼此相对接近的相似推文。我们提出的趋势主题和Twitter的比较的结果是矛盾的,我们提出的趋势主题与当地新闻趋势主题的比较。与Twitter的Doc-p相比,准确率更高。但是,对于本地新闻趋势主题,BN-gram的准确性高于Doc-这是因为基于相似度和阈值的聚类更适用于Twitter,而基于频率的聚类更适用于本地新闻。实验还表明,该方法生成的热门话题我们的方法的趋势主题形成本地新闻中的趋势主题的材料,除了基于本地新闻中的趋势主题收集的推文之外。有两种关系:本地新闻中的热门话题可以在我们的方法的热门话题中报道,反之亦然。在我们的实验中,关键的发现是,我们的方法的热门话题与地方新闻中的热门话题相反,这在地方州长选举中很明显2017年任雅加达副省长。我们的方法生成的热门话题是社会的直接意见,没有任何操纵。因此,热门话题的产生是由我们的方法可以成为政治事件的早期预警系统是印尼6. 结论一般来说,印尼推文中的趋势主题检测受到预处理和收集的推文总数的影响。实验表明,印尼推文中的趋势主题检测更准确时,使用BN-gram比Doc-p。BN-gram产生更高的准确性,在检测趋势主题比Doc-p在所有三个数据集。然而,对于关键字精确度,Doc-p优于BN-gram。预处理的使用,特别是词干提取和聚合,也会影响生成的趋势主题的质量在预处理中使用词干分析降低了准确性,而聚合也降低了生成的趋势主题的质量。使用n-gram变量会影响BN-gram生成的趋势主题的质量。使用unigram的实验导致产生的趋势主题的质量最差,而使用trigram的结果质量最高。它的结论是,趋势主题检测印尼推文,特别是BN-克应使用三元组产生趋势主题的高准确性和几乎相同的准确性为四克,五克,和六克。印度尼西亚语写作的模式与印度尼西亚语亚组的语言模式相似:Melayu(马来西亚),Malagasy(马达加斯加),Formosa和菲律宾(Darmini,2012)。因此,印尼语热门话题研究有一个很好的机会,应用于印尼语亚群的热门话题。此外,实验结果表明,从印尼推文BN-grams和Doc-P生成的主题不具有主,谓语,宾语和副词(SPOK)模式,因为印尼句子应该是,这将成为未来的研究挑战确认本研究得到了印度尼西亚共和国研究、技术和高等教育部国内研究 生 教 育 奖 学 金 ( BPPDN ) 和 博 士 论 文 资 助 ( 资 助 号0426/K3/KM/2017)的支持引用Adriani,M.,亚洲人,J.,Nazief,B.,Tahaghoghi,S.M.M.,威廉姆斯,H.E.,2007.词干 印 尼 语 : 一 个 混 淆 剥 离 方 法 。 ACM 亚 洲 语 言 信 息 翻 译 过 程 。 6 , 1-33 。https://doi.org/10.1145/1316457.1316459网站。274Indra等人 /Journal of King Saud University- Computer and Information Sciences 31(2019)266- 274Aiello,L.M
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功