基于密度的文本挖掘与主题检测：跨国合作研究中的案例分析

46 浏览量更新于2024-01-18 收藏 871KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报合作研究领域的评价：一个案例研究Mona Moradi，Mohammad RahmanimaneshMohammed，Ali Shahzadi伊朗塞姆南塞姆南大学电子和计算机工程学院阿提奇莱因福奥文章历史记录：收到2019年2019年9月23日修订2019年11月10日接受在线发售2019年保留字：文本挖掘文本相似度主题检测概率密度函数模糊聚类协同研究A B S T R A C T社交网络的增长是不断增加的。许多现有的科学出版物证明了研究人员对这一领域的兴趣。在2011年至2018年的八年时间内，美国、伊朗、沙特阿拉伯和土耳其分别发表了约2600、230、150和110篇关于这一研究领域的科学文章。为了全面考察这一研究领域中的所有子领域和兴趣，本文提出了一种新的基于密度的方法来从学术文章中发现主题描述符。采用一种对噪声具有鲁棒性的模糊聚类算法对词汇进行聚类，并利用改进的Parzen窗口从每个聚类中提取k个主题描述符。此外，还设计了一个优化问题来检测词对之间的相似度。通过实验，找出了四个国家在这一时间段内的研究重点实验结果表明，四年来，土耳其的研究主题平均接近美国的研究主题，沙特阿拉伯的研究主题在过去两年中接近美国的研究主题。此外，在两个聚类基线下的实验比较表明，所提出的方法在准确率，召回率和准确率方面的优越性。©2019作者（S）。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍研究人员之间的互动和交流是世界范围内的关键问题。尽管存在地理边界和文化差异，来自不同国家的研究人员可以合作解决问题。值得一提的是，研究者可以解决更多的问题，如果更多的文化共同点之间存在。由于研究人员在科学和技术进步中的不可或缺的作用，有必要利用他人的经验，以避免不必要的重复努力和研究。尽管研究的增加导致了重大进展，但其中一些研究并没有导致有价值的成就，因为它们可能是在不适当的方向上进行的。此外，好的研究想法有时并不能产生预期的结果，尽管这些结果可能会影响到我们的研究。*通讯作者。电子邮件地址：mmoradi@semnan.ac.ir（M.Moradi），rahmanimanesh@sem-nan.ac.ir（M. Rahmanimanesh），shahzadi@semnan.ac.ir（A. Shahzadi）。沙特国王大学负责同行审查问题是科学努力的必然特征。研究优先级是防止浪费研究的合适解决方案。通过优先考虑未来研究的方向，可以解决目前的替代方案。确定优先次序的重要性可以从两个不同的方面来解释。首先，它帮助研究人员找出关键挑战。其次，它有助于资助者决定如何投资于研究项目。研究活动的国际化以及发达国家和发展中国家之间的科学、技术和商业联系的进展将带来学术和工业的增长。发现合作领域，甚至发现国家和国际研究之间的差距，可以促进信息交流，并为未来的大学和研究机构提供合作机会。今天，世界对互联网、社交网络和网络分析的依赖显著增加。因此，对相关研究的历史回顾以及找到与研究领域最接近的主题是非常耗时的。文本分类是用来自预定义集合的自动类别标记自然语言文本的过程（Manning等人，1999年）。监督机器学习方法，如k-最近邻（kNN），支持向量机（SVM），神经网络（NN），随机森林（RF）和最大熵（ME）（Elghannam，2019; Francis和Sreenath，2019）以及相似性/相异性https://doi.org/10.1016/j.jksuci.2019.11.0051319-1578/©2019作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comM. Moradi等人/Journal of King Saud University409指标（Al-Anzi和AbuZeina，2017; Belazzoug等人，2019）被广泛用于文本分类和主题分类。主题检测被定义为从文档集合中发现突出的词以及任何暗示主题的词的任务。与文本有关的事项被定义为文档的主题。到目前为止，已经提出了许多关于自然语言处理（NLP）的研究用于主题检测（Choi和Park，2019; Reihanian等人，2016年; Winarko和Pulungan，2019年）。这些研究中的大多数已经从聚类技术的前景解决了这个问题（Aiello等人，2013; Dutta等人，2019年;Wartena和Littensee，2008年），特别是k-均值（Li等人，2016年;Zhu等人，2019年）。基于模糊逻辑的技术可以通过处理诸如模糊性和不确定性的自然语言特征来提高NLP系统的性能（Lau等人，2008; Rashid等人，2019; Sheeba和Vivekanandan，2014）。概率方法，例如潜在狄利克雷分配（Blei等人，2003年;Ihou和Bouguila，2019年），潜在语义分析（LSA）（Chun-hong等人，2011; Deerwester等人，1990）和概率潜在语义分析（PLSA）（Brants等人，2002年;霍夫曼，1999年）已经研究了很长一段时间。神经网络（ Neural networks ）（ Jumper 等人，2016;Rajaraman和Tan，2001）和独立成分分析（ICA）（Grant等人，2008）是另一种有吸引力的技术，以达到一些适当的结果。尽管主题检测方法多种多样，但这一领域仍然面临着一些缺点：传统的方法大多使用聚类技术，但这些技术在暴露于噪声和离群值时效率低下。概率方法往往倾向于忽略低频词，这种方法可能会导致效果不佳，特别是在突出词出现频率较低的情况下。该方法的目标是：（1）自动地从科学论文中提取趋势主题;（2）发现不同国家的研究重点;（3）衡量发展中国家的研究领域与发达国家的接近程度。因此，选择了来自4个国家（3个邻国，伊朗、沙特阿拉伯、土耳其为发展中国家，美国为发达国家）的文章进行评价。出于某些原因，伊朗、沙特阿拉伯、土耳其和美国被选为本研究的关注国家。首先，本文作者的国籍是伊朗，自然，伊朗的科学和技术活动是作者的关注点。根据《世界人口评论》（2019年）的统计数据，该国的平均人口排名为18.5。其次，伊朗及其两个邻国沙特阿拉伯和土耳其有广泛的相关因素（例如，经济和文化结构）。沙特阿拉伯第三，美国是一个站在知识前沿的国家。其平均人口排名为3。将伊朗、沙特阿拉伯和土耳其的科学状况与美国进行比较，有助于这三个资源有限的国家阐明当前和未来的研究方向在本文中，一种对噪声鲁棒的模糊聚类方法称为模糊C-有序均值聚类（FCOM）（Leski，2016），用于总结主要主题。选择模糊技术的原因是，一个特定的知识领域的主题是相互关联的，主要。此外，这些主题也可能与其他知识领域共享;因此，一些词与不同领域有不同程度的相关性。利用概率密度函数的词嵌入技术，设计了一种提取top-k词（主题描述符）来推断主题的方法。此外，利用优化问题有助于确定研究研究人员还将评估不同国家的优先事项，并确定发展中国家的研究领域与发达国家的接近程度。实验结果表明，所提出的方法提供了优越的效益比竞争的方法。本文的贡献有三个方面：1) 用关键词和摘要注释科学出版物和查找研究优先级对于搜索、索引和分类这些文献具有重要作用因此，提出了一种新的方法来识别和提取的科学论文集的主题，从而减少了人工标注所需的时间和成本2) 它确定了不同国家的研究重点。因此，它有助于研究人员发现未来研究的适当方向。此外，它还有助于资助者决定如何投资于研究项目。3) 所提出的方法可以量化多少在发展中国家的研究领域接近发达国家的研究领域在处于知识前沿的国家中检测趋势主题的能力直接影响到发现积极挑战和现实世界开放问题的可能性。此外，这一问题有助于面临有限财政资源的发展中国家明确目前和未来的研究方向此外，它还减少了不必要的重复研究造成的浪费。第二、三部分分别介绍了模糊c-序均值聚类的相关工作和基础。第4节详细说明了方法。第5节说明了实验结果。最后，第6节包含结论和未来的工作。2. 相关工作在专门研究主题检测的文献中，方法可以分为三大类：概率主题模型，文档枢轴方法和特征枢轴方法（Milioris，2018）。概率主题模型基于文档中的一些特征（如n-gram）的概率分布（Brants等人，2002; Chun-hong等人，2011; Hoffman等人，2010;Wang等人， 2012年）。LSA、PLSA和LDA是三种广泛使用的方法。LSA（Deerwester等人，1990）是主题建模的基础技术。其核心思想是将文档-术语矩阵分解为文档-主题矩阵和主题-术语矩阵。PLSA（Hofmann，1999）是另一种其核心思想是在文档-术语矩阵中寻找一个具有潜在主题的概率模型，生成可观察的LDA模型（Blei等人，2003）作为一种成熟的主题检测方法，是一种贝叶斯概率生成模型，其中每个文档被建模为主题上的离散分布，并且每个主题被认为是术语上的离散分布。上述方法在参数设置和先验分布已知方面存在困难。基于document-pivot的主题检测是基于关于文档之间的语义距离（Hasan等人，2016，2019; Ozdikis等人，2017; Panagiotou等人，2016年）。为了更好地理解话题，人们提出了一些分析方法，包括话题演变分析和情感分析文献中已经提出了各种用于文档内容的相似性检测技术。广义地说，有三种主要方法来计算相关性（Niraula等人， 2015）：（1）基于知识的技术使用本体●●410M. Moradi等人/Journal of King Saud Universityð ÞXðÞ（1/2j8）Cn_.“X”2½].Σ#bx;v2½]概念，例如，WordNet，用于查找文档之间的相似性（Jayawardhana和 Gorsevski ， 2019; Juckett 等人， 2019;Shenoy 等人，2012 ），（2）基于网络的技术使用搜索引擎来收集共现统计，e. 例如，在一个实施例中，点式相互信息-噪声和异常值。FCOM采用两种方法。第一种方法是使用额外的加权b，第二种方法是利用Huber相似性检测（Recchia和Jones，2009年），以及（e2=d2;jej6d(3)基于语料库的技术使用从语料库获得的词向量表示来计算这些词向量之间的距离吕胡伯jej=d;jej>dð2Þ功能. Zhang et al.（2018 b）提出了一种基于多项式函数的核k均值聚类方法，该方法结合了Word2Vec模型进行主题提取。该方法证明，其中d>0是可调参数。考虑到这两种方法，FCM的目标函数被改变为：文字嵌入技术可以跳过传统的人工成本。数据预处理。文件的缺点之一JfcomV;UXXbikuikmDxk;vi3基于主元的方法对噪声和离群值敏感。而且，这些方法遭受与聚类相关的问题特征-主元方法利用词的哪里1/1Dk¼1并发现文档中一起出现的单词组（Guille和Favre，2015; Padmaja等人， 2018年）。 Ai等人（2018）提出了一种两阶段的主题检测方法，从大量的文本数字材料中检测spark上的微博。这些方法的一个缺点是它们依赖于误导性的术语相关性。一些特征枢轴方法利用频繁模式挖掘来找到包含两个以上术语的共现模式。 Petkos等人（2014）针对主题检测问题设计了一种软频繁模式挖掘算法。Choi和Park（2019）利用HUPM（Liu和Qu，2012）算法检测候选来自Twitter流的主题他们的方法采取了频率和效用-Dxk;viDxk l;vi l;Dxk l;vi lllxkl-vil4l¼1其中Dxk; vi表示第k个数据和第i个聚类中心之间的相异性度量，d表示数据的维度，L表示Huber损失函数，vi是第i个聚类的第l个分量其中，m为模糊分块矩阵指数，用于控制模糊重叠度，m> 1。此外，bik0; 1表示关于第i个聚类的第k个数据的典型性;较低的bik0; 1导致噪声和离群值。现在，将n个（d维）向量的所有可能的模糊分割集定义为c同时考虑到。最后，提取实际主题从候选模式中，设计了TP树。Zhang等人（2018a）提出了一种基于模式的方法来检测主题，J fcomUrcn16i6c16k 6nuik2½0;1];Xi¼1bikuik<$ fk; 0< Xk1/4uikn）中国的类似Twitter的平台，其采用类似FP增长的算法（Cao等人，2014）来提取模式，并通过层次聚类将它们进一步汇总为主题。基于图的方法是另一种类型的特征枢轴方法。Chen et al.（2017）设计了一种基于图的方法，使用马尔可夫决策过程进行主题检测。显然，所有这些技术都有优点和缺点，并且单个方法不能完全量化文本段之间的相似性/相关性。ð5Þ其中Rcn表示实n ×c×nn维矩阵空间，fk参数是第k个数据的总体典型性，其取决于关于所有聚类的第k个它由Eq定义。（六）、81 6k6nfk 1/4b1 k_b2 k_ . _bck6其中，通过对固定值进行排序来为每个聚类确定bik，称为aik，并且表示max运算。参数ak的形式可以是S形的，如下所示：3. 模糊C-有序均值聚类a1/4，.1前p2：944k-pn;k2f1;2;：;ngð7ÞK模糊C-均值（FCM）是一种聚类方法，其中每个数据人民党对象属于多个具有不同的优先级的集群。FCM基于以下目标函数的最小化其中pa和pc分别等于0.2和0.5对于a k个矢量，所获得的值按降序为a1>a2>. . >an，其中n是数据的数量。为了通过使用权重a来获得第i个聚类的权重b，所有数据应该按照C N C NJFCM¼X Xum D2xk;vi¼XXumkxk-vik21到集群中心的距离换句话说，每-f！gf g1/1ikk¼11/1ikk¼1突变函数p：1; 2;.. . ;n1; 2;.. . ;n是中获得满足以下条件的方式其中n是数据点的数量，c是聚类的数量，xk是第k个数据对象，v是第i个聚类的中心，u是xk对i的隶属度m是模糊参数，. e½r-1]。六、e½r-1]。六、e½r-1]：6. e½r-1]。ð8Þ伊伊日.ip1001。.在2002年，.在2003年1月， . ipánpál.用于控制模糊重叠程度的标题矩阵指数其中e½r-1]是第p个第j个基准点到第i个聚类中心的距离ipj lth th th具有m > 1. 模糊重叠指的是边界有考虑到LR中的分量迭代经计算-在集群之间的是，这是数据对象的数量，在一个以上集群中的重要成员对于置换函数p，第i个聚类的b参数是获得如下：虽然FCM是一种成熟的聚类算法，但它一些缺陷如对模糊化参数的敏感性bik¼ap-1kð9Þ对用于选择聚类中心的初始猜测的敏感性，以及对数据中的噪声和异常值的敏感性。由于所有数据对象对聚类中心的选择具有相同的影响，因此即使少量噪声和离群点的存在也可能导致对聚类中心的不利影响。选择聚类中心。已经提出了各种方法通常，高权重被分配给靠近聚类中心的数据。第i个聚类中的第k个（十）、附录A提到了基本细节（Leski，2016）。在文献中，克服这些缺陷。最近，一个新的1C816 i6c 乌伊克 ¼fkDxk;vj1- m1jkDKj1-mð10Þ提出了一种名为模糊c排序均值聚类算法（FCOM）的方法（Leski，2016），以解决对16k6n第1页M. Moradi等人/Journal of King Saud University4118v¼“XIKLIKLIL12½-]x-vIL2ð Þ2pRMøMn中文（简体）中文（简体）m：×中文（简体）m2cliM..伊尔伊尔2.Σ≈在第r个wN中计算聚类中心ith的第l个分量迭代如下：j;m/4阶项频率j;m×log2n13半r]16i6cil16l6d哪里nk¼1比伊克乌伊克h½r]xkl#，“Xn比伊克乌伊克姆h½r]#ð11Þ其中，wj;m是文档Docj中的术语um的权重;m是文档Docj中的术语um的频率，N是文档集合的大小（即，从国家c）收集的文章数量，n是至少出现一次um的文档数量在下一步中，细化tf-idf矩阵因为所有的8>0;xkl-v½r-1]¼0术语（n元语法）对于信息检索没有用，冗余h½r]¼IKL<>L.xkl-v½r-1]XIL半r-1]ð12Þ而不相关的数据应该被忽略。为此，所有术语根据其tf-idf值进行排名。然后，对于每个文档，>：。;R1格勒日kl-vil保留具有最高tf-idf值的M个项。在该方法中，M设置为20。更多详情获取Eq. （11）见附录B（Leski，2016）。算法1示出了FCOM聚类。算法1示出了FCOM聚类。算法1. FCOM聚类（Leski，2016）。1. 初始化v½0]¼0。设置迭代索引r←1，2. 计算残差e½r-1]1/4xkl-v½r-1]，然后使用等式h½r]。之后，通过利用Doc2Vec嵌入方法（Le和Mikolov，2014）将每个所选项u变换到d在该方法中，d被设置为50。最后，从所有文档中提取的所有向量被收集在一起，形成我们的术语库。4.1.3.基于密度的话题检测我们现在提出我们的主题检测方法提出的模糊聚类和密度估计的基础上。起初，条款是俱乐部-（12），伊勒伊尔IKL由FCOM（Leski，2016）对数据向量进行了测试。如前所述，FCOM已将注意力转向处理噪声数据3. 求置换函数p k 通过考虑当量（8）、4. 计算k 使用等式（7）、5. 使用等式更新第r次迭代的中心（11），6. If.. v½r]-v½r-1]。. >e然后r←r1并执行步骤2，否则停止。4. 方法本节包含两个小节，重点介绍提出了一种从科学论文集中识别和提取突出主题的方法，和离群值。由于所应用的模糊聚类，所提取的术语重叠，即，在聚类之间共享多个术语意味着这些术语对应于相同的主题，并且使得聚类对聚类的数量不太敏感相关词构成密集的集群，容易识别突出的主题。为了识别相关的单词，我们提出了一个修改后的Parzen窗口与高斯内核，将窗口在每个单词。Parzen窗（Parzen，1962）是一种常用的非参数方法来估计随机变量的概率密度函数（PDF）修改后的Parzen窗口方程定义如下：PJCLI J¼M. lcli：Hlcli：0乌利mclTRc 1-1。乌利mcl1相似之处。现在，所提出的方法的细节是解释如下。4.1. 文本主题检测n1mnp ucli nD=2cli1= 2ðÞ..expB@- -伊古里2是-我一ð14Þ本文提出的主题检测方法的框图如图1所示，包括文档预处理、特征选择、向量化和推断主题描述符。下面将更详细地解释上述阶段4.1.1. 文档预处理首先，去除每个文档的停用词和标点符号。此外，对于词典开发，从原始文档集合中提取一组n-gram（n个单词的任何序列我们的经验发现，两个或三个连续的单词（二元和三元）有更多的信息增益比一元在收集的文件。所以所有其中j_cl_i_j表示簇cl_i的大小（即，的项数属于群集），lcli是d维项u m到聚类cl 1;cl2;.的隶属度值。. ;clTg;mcli是聚类cli的平均向量;Rcli 是矩阵r的协方差矩阵cl1;和表示两个隶属度值的乘积。分配对于特定聚类中每个术语的权重，我们利用隶属度值的Hama-cher乘积（Silambarasan和Sriram，2017）作为加权因子，以显示该聚类中术语的重要程度。利用两个隶属度值的Hamacher乘积来反映两个词在给定聚类中的相关程度资本主义则被定义为lc li：×lcli：n忽略一元语法。生成的集合是包括二元和三元。lcli： lcli： 1/4lcliMlclihlclilclii154.1.2. 特征选择和矢量化通过使用tf-idf加权方案（Salton和McGill，1986）来执行特征选择。为了构成tf-idf矩阵，考虑所收集的文档的二元语法和三元语法。在这种情况下，文档集合表示为U×N文档项矩阵，其中每行对应于其中， k 是特定聚类cli 中的每个项的分布式隶属度值：注意，Hamacher值越高，项越属于该聚类。使用此值有助于确定该项是否将构成密集聚类。考虑到Eq. 在公式（14）中，归一化概率密度值被计算为公式（15）。（十六）、二氧一术语;每个柱对应到一个文档freqump.2016年fDoc1;···;DocNg，并且每个矩阵条目表示用于相应的术语和文件为：fm¼Maxfre qum×Maxp.ucliÞk¼1二氯甲烷我MC412M. Moradi等人/Journal of King Saud UniversityðÞ公司简介fg1N¼XXXi½jl;iiJ12不.ΣFig. 1. 从科学文章中发现主题的图表。其中freq_u_m是术语_u_m在文档集合中出现的频率。最后，为了识别每个聚类的前k个主题，将所有获得的fm按降序排序，从顶部的k个的的列表是选定.然后，每个类cl i2X; X1/2fcl1;cl2;.. . ;cl Tg;是表示通过一个原型p主题1;：;主题k ;i1;：;T.在所提出的方法中，少于四个成员的被忽略。4.2. 相似性检测我们现在提出一个基于距离的优化器来计算从每个文档中提取的术语与每个聚类的主题描述符有多种方法可以计算感知文档语义的特征，但有一种方法非常有效，那就是使用tf-idf值。所提出的优化器的思想是，这些术语被表示为特征向量，并且通过测量这些特征之间的距离来比较它们。假设存储库包含N个文档Doc;：;Doc ，并且Docj包括M个术语fu1;：;uMg。令Xc/cl c;cl c;：;cl c是国家c的一组类别标签，其中每个类别都表示其中每个术语topicl;l1;：;k是d维观测，其中d是由向量化阶段获得的向量的大小。分类文档的预期成本是通过将tf-idf值与曼哈顿距离进行积分来计算的，如下所示。分别在5.2和5.3小节中表示。主题检测的实验在5.4小节中给出。第5.5小节由几个实验组成，用于（1）确定四个国家的研究优先级，（2）比较曼哈顿度量（在所提出的方法中使用）与三种不同度量的性能，（3）比较FCOM（在所提出的方法中使用）与三种模糊聚类方法的性能，以及（4）比较所提出的方法与两种基线方法的性能。最后，发展中国家研究领域与发达国家的接近程度在5.6小节中进行了评估。5.1. 数据集所提出的方法的领域涉及学术论文; 2019年5月16日，通过提供包括来自伊朗、沙特阿拉伯、土耳其和美国的论文的数据，从Web ofScience（WoS，2019）收集数据集，考虑“社交网络”作为搜索词，“英语”作为语言，“文章”作为文档类型，"2011-2018 0“数据集特征如图2所示。基于出版物的标题、摘要和关键词进行文本挖掘分析。此外，没有可用标题、摘要或关键词的论文被排除。5.2. 实验装置Mpid我做cj1e-wrot×wj;mujpij×Mm<$1 l< $1 k< $1m：k-ul： k j17为了公平比较，在所有实验中，为每个聚类检索的主题数量设置为4。聚类的数量应该足够大，以发现更有特色的主题。因此，我们认为，其中，jpij表示第i类中的主题的数量，wj;mindi。指定Docj中术语u;m<$1;：; m的权重;wtoti是每个类的原型的主题的tf_idf值的平均值wtoti定义为：w到ti 意思;wtopicl;i;l¼1;· ··;k;i¼ 1;· · ·;T18其中w主题是主题l在聚类clc中的权重：Docj由以下公式导出：C簇的数目被设置为10。对于LDA，检索的主题总数设置为40。此外，所有聚类中心都是随机初始化的。对于FCOM，模糊C均值（FCM）、可能性聚类（PC）（Krishnapuram和Keller，1993）、具有多项式模糊化器的模糊聚类（FPCM）（Winkler等人，2011）使用加权指数m =2。对于Eq. （7）、pA：0： 2和pC：0： 5为采用对于FPCM，使用b= 0.5当连续V矩阵的Frobenius范数差FCOM、FCM、PC、FPCM和k-means均小于10- 4对于PC，clj0¼argminJdocj19mm5. 实验结果在本节中，报告了所提出的方法的实验结果。使用的数据集在第5.1小节中简要介绍。实验设置和评估指标是gi值通过使用Eq. （9）在（Krishnapuram和Keller，1993）中定义的。在该方程中，使用了K1/45.3. 评估指标为了提供用于评价的真实数据，科学文章由三名独立的人类注释者手动标记我们提供了候选类标签的列表，M. Moradi等人/Journal of King Saud University413我¼¼12不.Σ图二. 按出版年份列出的与“社交网络”相关的出版物概览表2，Xc¼cl c;cl c;···;cl c;并要求他们为每件物品选择最佳标签cl c。最后，我们考虑了列表的合并由人类注释者提供作为地面事实。地面实况的几个例子如表1所示。表2混淆矩阵。采用拟定方法标记为了比较所提出的方法的效率，已经应用了诸如精确度、召回率和准确度的评估指标。同一集群不同的聚类这些估计量由方程确定。（20）被人类同一群集SS DS精密度¼SSSS2019年12月20日注释器不同的聚类SD DD召回SSSSSunday精确度SSDDSSS.S.D S.S.Dð21Þð22Þ表3的显著特征是特定国家的某些组群共享更多术语（例如，美国），而一些国家共享较少的术语（例如，沙特阿拉伯）。值得注意的是，“社交网络”领域具有挑战性，因为它跨越了广泛的学科共享共同的主题（例如，社区检测、推荐系统、意见挖掘等）。这其中SS、SD、DS和DD在表2中介绍。对于每对文件，以下四个国家之一可能持有。5.4. 发现突出的研究从所收集的文章中提取的主题在表3中示出;其中空白单元格表示其成员少于四个的被忽略的聚类。收集的术语（n-gram）被分组为十个聚类，并且每个聚类的前4个术语被提取作为聚类原型。每个国家的聚类原型显示哪些术语密切相关。聚类分析的结果表明，伊朗，沙特阿拉伯和土耳其有9个不同的主题组，而美国有10个不同的主题组最领域不仅包括包含独特术语的学科，而且还包括共享共同术语的学科。因此，可以合理假设美国的文章彼此之间具有相对较高的学科相似性，而沙特阿拉伯的文章彼此之间具有相对较低的学科相似性。5.5. 确定研究重点确定研究优先事项的结果见表4这些表包含曼哈顿度量（应用于所提出的方法中）与三个众所周知的度量之间的比较，这三个度量被命名为欧几里得度量，余弦，Pearson相关系数这些值表示表1地面真相的例子。数据集标题摘要关键词由人类注释者伊朗能量和频谱高效的移动感知蜂窝通信量的快速增长主要是由于设备到设备通信;clIRN3资源管理.对多媒体的需求和.. .多播;能量效率;.. .沙特阿拉伯社交电商作为驱动力加强信任，加密货币的部署在电子商务中，.加密货币;信任;社交电商clSAU6意图... .support;.. .土耳其利用群体智能算法来检测人们使用在线社交网络交换信息，.社会影响分析;有影响力的人;clTUR4有影响力.. .影响最大化;.. .美国朝向实施车联网（IoV）代表了一种新兴的模式。.车载自组织网络物联网; .cl美国10社交车表3集群原型。国家集群p1p2p3p4p5p6p7p8p9p10伊朗信任网络检测社区检测最短路径遗传算法影响––网络影响力中心地位接近中心性寻找影响节点意见形成多目标将来链路大化神经网络社区恶意软件传播规模文件共享社区Meta启发式扩散大化最大团–测量兴趣社交预测未来链路模糊集问题相似性度量检测动态粒子群网络用户隐私算法模糊图模型链接预测随机目的–网络人工自动机链路推荐器链接预测语义web关切移动社交优化免疫网络预测系统网络沙特阿拉伯公民社区结构混沌系统频繁子图挖掘语言信任函数情感分析大数据社交网络推荐系统意见决策模糊集情感识别隐私保护Twitter垃圾邮件特设社会特征空间隐私安全––信誉内容复杂网络分析互联网物联网动态冷启动网络骚扰模糊偏好网络社区社会网络–分析系统过滤分析关系检测网络置信水平重叠模糊推理矩阵基于内容异构多准则标签内容分析–社区系统分解过滤书目信息建议土耳其用户行为供应链社会经济社交网络–共享的内容基于分类器移动本地解析协同网络可变理论搜索层次分析法过滤使用facebook检测预测演化社区–模糊集异构多可持续精神病时间社会的算法标准企业客户检测算法种子选择–节点相似性社交网络沮丧分类器系统模糊分析供应链型模糊人口社会学基于主题网络决定分割启发式青少年层次结构微博图能源科学群–复杂网络无恐怖水平情绪社交焦虑链接预测处理投资产能合作情报分析演变美国延迟容忍网络信息位置推荐器社区检测twitter情感信息扩散社会管理网络分析网络建议系统系统系统网络信任网络异构介数卷积神经网络信任传播信息影响社会移动社交形成信息中心地位神经扩散网络卫生社会宽容聚类支持向量健康建议社会进化ad hoc网络隐私设置互联网社交网络网络算法机信息学系统网络web图在线健康社区手机分析意见采矿twitter社交网络协同过滤最大可能性通信技术语义webhoc网络估计414M. Moradi等人/Journal of King Saud UniversityM. Moradi等人/Journal of King Saud University415表4美国的研究优先级（%），使用不同的指标。1 234 567 8 9分配给十个集群中的每一个的发布的百分比此外，对于每列，计算平均值每行的最高值以粗体显示。表4列出了美国的研究重点。通过采用曼哈顿度量，最高的研究优先级被分配给cl1中提出的主题。此外，通过采用欧几里德和余弦，在cl9中提出的主题实现了最高优先级。通过使用Pearson，cl4和cl9中呈现的主题获得了最高优先级。表5列出了伊朗的研究重点。当曼哈顿或欧几里得被雇用时，最高的研究优先级被分配给cl1中提出的主题。此外，通过使用余弦和皮尔逊，在cl7中提出的主题实现了最高优先级。沙特阿拉伯的研究重点列于表6。值得注意的是，由于2011年发表的论文信息不完整，这些记录在预处理阶段被忽略。因此，表的前四行不包含任何数据。如图所示，当使用曼哈顿时，最高的研究优先级被分配给cl6中提出的主题。此外，通过采用欧几里德和余弦，在cl3和cl6中提出的主题分别实现了最高优先级。通过使用皮尔逊，cl6和cl7都实现了最高优先级。土耳其的研究重点见表7。如图所示，通过使用曼哈顿，最高的研究优先级被分配给cl7中提出的主题此外，通过使用在欧几里得中，cl1中提出的主题获得了最高的先验性。通过利用余弦和皮尔逊，在cl9中提出的主题实现了最高优先级。目的是检验曼哈顿不相似性度量在Eq.（17）中，将该度量与三个度量进行比较，命名为欧几里得、余弦和皮尔逊相关系数。所得结果列于表8中。由于排名提供了方法的合理比较，因此每种方法的性能从最高到最低进行排名，并在括号中报告。可以看出，曼哈顿相异性度量总是实现最佳的精确度、召回率和准确度。这是因为小的差异，在这将不会被忽视。在召回率和准确率方面，使用欧几里德相异性度量的性能差异较小然而，欧几里德对精度有负面影响，因为该度量夸大了大的差异并忽略了小的差异。此外，在精度方面，Pearson相似性度量的性能差异较小此外，FCOM（模糊聚类算法，已在所提出的方法）的有效性进行了比较，与三个现有的模糊聚类方法，命名为FCM，PFCM，PC（见表9）。PFCM和PC是模糊聚类方法，减少离群值的影响。在PFCM方法中，对于每个数据点，其到原型的距离是有序的。在FCOM方法中，对于每个原型，数据点将根据它们与原型的距离进行排序。年度量cl美国cl美国cl美国cl美国cl美国cl美国cl美国cl美国cl美国cl美国102011曼哈顿欧几里得余弦皮尔逊0.490.370.570.460.420.570.530.690.530.690.420.340.490.420.690.720.490.530.650.650.570.500.490.530.690.610.530.531.031.030.690.690.690.840.760.690.650.500.720.862012曼哈顿0.800.910.880.910.610.300.910.490.691.01欧几里得余弦皮尔逊0.760.990.910.880.760.690.840.990.950.840.690.690.650.690.840.420.460.490.800.650.650.610.760.760.720.570.530.990.950.992013曼哈顿欧几里得余弦皮尔逊0.910.880.840.801.071.071.181.180.990.950.910.910.760.841.141.141.140.880.800.840.690.880.720.761.220.911.071.021.141.101.221.220.841.180.950.950.760.840.690.692014曼哈顿欧几里得余弦皮尔逊1.341.261.071.021.111.031.071.021.451.711.221.300.950.951.301.441.341.370.760.691.451.261.441.221.221.301.371.341.251.031.531.481.221.181.531.671.141.371.181.252015曼哈顿欧几里得1.711.521.481.481.341.331.441.601.531.711.301.101.711.681.441.521.441.261.601.79余弦皮尔逊1.341.481.441.481.531.601.601.641.251.301.371.411.341.221.441.441.641.602.061.832016曼哈顿欧几里得余弦皮尔逊1.671.681.561.441.371.521.941.791.951.521.711.791.531.601.341.371.641.561.871.901.441.451.481.411.441.520.841.111.251.491.561.601.481.681.791.641.531.301.221.252017曼哈顿欧几里得余弦皮尔逊1.671.451.411.301.531.521.411.251.711.831.831.791.711.901.481.561.831.901.791.791.561.411.411.441.671.792.252.321.531.301.371.562.032.102.252.171.671.781.791.792018曼哈顿欧几里得2.182.101.871.941.371.301.871.871.641.641.641.831.761.711.831.601.561.711.441.45余弦皮尔逊2.021.791.711.641.301.141.942.171.441.482.062.062.021.941.531.601.481.481.641.83平均曼哈顿欧几里得余弦皮尔逊1.351.251.231.151.221.251.261.221.281.271.241.231.211.251.271.341.281.281.161.191.121.111.181.171.331.291.261.271.251.211.261.291.24

下载后可阅读完整内容，剩余1页未读，立即下载