生物医学文档特征聚类与分类模型的研究

86 浏览量更新于2023-12-09 收藏 733KB PDF 举报

文档聚类

用户推荐系统

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

埃及信息学杂志19（2018）191全文不平衡生物医学数据集Thulasi Bikkua，Sambasiva Rao Nandamb，Ananda Rao AkepogucaVignan的Nirula妇女技术和科学研究所CSE系bPrincipal，RITW，Hyderabad，Telangana，Indiac印度Ananthapuramu JNTUCEA学术规划主任阿提奇莱因福奥文章历史记录：2017年3月21日收到2017年10月16日修订2018年3月22日接受在线发售2018年关键词：生物医学数据文档聚类文献分类生物信息学用户推荐系统A B S T R A C T由于PubMed和Medline数据库中存在大量的生物医学文档，传统的文档聚类和分类模型难以对文档信息进行分析、预测和解释。传统的文档聚类和分类模型不能根据用户的关键词和MESH术语对文档集进行分析。由于大量的特征集，传统的模型，如SVM，神经网络，多名义朴素贝叶斯已被用作特征分类，其中额外的文本过滤措施通常被用作特征选择过程。此外，随着文档大小的生物医学文档聚类与分类是实时用户推荐系统知识抽取过程中必不可少的机器学习模型之一。在本文中，我们开发了一种新的生物医学文档特征聚类和分类模型，作为一个用户推荐系统的大型文档集使用Hadoop框架工作。在该模型中，使用MapReduce框架在生物医学知识库（PubMed和Medline）上实现了一种新的基因特征聚类和集成文档分类。实验结果表明，与传统的文档聚类和分类模型相比，该模型具有较高的计算聚类质量率和真阳性分类率©2018制作和主办由Elsevier B.V.代表开罗计算机和信息学院大学这是一篇CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍聚类可以被定义为将数据对象管理成一组本质上不相交的类的现象。特定集群中的对象共享相同的属性，而不同集群中的对象共享不同的属性。文档聚类负责将文档自动分组到组中。聚类是一种无监督分类。无监督分类是不与先前定义的类和训练集交互的分类过程。生物信息学，pat-*通讯作者。电子邮件地址：thulasi. gmail.com（T. Bikku）。开罗大学计算机和信息系负责同行审查。制作和主办：Elsevier鸟类识别、图像处理和数据挖掘是聚类的一些最常见的应用[1]。数据挖掘是一种重要的数据分析工具，称为聚类分析.聚类的整个过程可以分为两类，它们是：分层算法和划分算法。分层算法将数据集分解为聚类，到一个子集群在一个分层模式，这是负责生成集群命名为树状图。每个集群产生一个子集群。分区算法负责在一个步骤中将数据集分解成更小的单元。层次聚类算法又可分为两种，即聚集聚类和分裂聚类.凝聚聚类包括生成单簇，然后递归地组合更多的簇[2]。分裂集群从一个集群开始，递归地分成更多的集群。当满足终止条件时，此循环中止。聚类过程有两个主要的缺点，即：1。计算最佳聚类数。2.计算两个不同聚类之间的相对好度。标准和验证函数是实现聚类所有优点的关键在https://doi.org/10.1016/j.eij.2018.03.0031110-8665/©2018制作和主办由Elsevier B. V.代表开罗大学计算机和信息学院这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页：www.sciencedirect.com192T. Bikku等人/Egyptian Informatics Journal 19（2018）191在传统的聚类方案中，具有相似属性的实例被分组在同一个聚类下，而具有不同属性的实例被分组在不同的聚类类别下。这些类型的聚类方案被称为硬聚类方案。在软集群方案的情况下，实例可以同时被分组在不同的集群中。不同的聚类方案有：分层方案、矢量量化方案、基于混合密度的方案、基于图论的方案、基于组合搜索技术的方案、模糊方案、基于核的方案等。文档分类在生物医学和科研领域的应用最为广泛。分类过程大致分为训练和测试两个阶段。分类算法是在训练集的帮助下建立分类模型。随后在测试阶段评估模型性能。多年来，为了开发出性能最优的分类算法，人们进行了大量的研究工作。下面简要介绍一些流行的分类模型[3]。根据受试者工作特征（ROC）曲线，朴素贝叶斯模型比逻辑回归、最近邻、决策树和神经网络模型更有效，在研究领域应用更广泛。该模型是一个简单的，少参数化和有效的性能。KNN是一种特殊类型的基于实例的分类模型，在该模型中，近似函数是局部计算的，并且它一直持续到分类发生。它也被称为懒惰学习，因为它不需要像其他传统方法那样的训练阶段。这些训练数据在测试阶段进行测试。对于大型数据集，训练数据被分成较小的部分数据集。KNN最常见的应用是在密度估计过程和参数估计过程中实现隐马尔可夫模型（Hidden Markov Model，HMM）是一种统计分类模型，它把整个模型看作是一个马尔可夫过程，而这个马尔可夫过程具有不可观测或隐藏的状态。该模型被表示为动态贝叶斯模型。该模型的一些应用这种方法的唯一缺陷是它忽略了超级状态中的状态结构支持向量机是一种基于构造的分类模型。它也遵循统计学习的思想[4]。这种算法实现了增强的性能相比，其他现有的方法。在超平面的帮助下，SVM定义了决策边界。它还区分不同类别的数据点，可以解决线性和非线性分类问题。调用映射函数，用于通过核函数将原始数据点从输入空间映射到高维或无限维特征空间相关向量机（RelevanceVectorMachine，RVM）是支持向量机的一种改进形式与支持向量机等其他模型相比，该模型具有更好的性能。它强调稀疏性和压缩感知。这种方法使用训练数据支持向量机比支持向量机具有更少的在决策树分类模型中，遵循分治法来创建树，其中实例与其他属性相结合。决策树包含节点和叶节点，该算法的输出不是真就是假。路径和节点都被认为是形成先决条件，因此约束由从根到叶的路径形成树修剪有助于丢弃不需要的先决条件和冗余。其中最好的分类算法之一是随机森林算法，它能以很高的精度对海量数据进行在决策树中，模型是通过创建大量的决策树来生成的。其结果包含了由indi预测的模态类别，树木它使用了合并弱学习者形成强学习者的概念[5]。遗传算法（GA）属于进化算法和随机算法，它能给出最优解.交叉和变异操作进行编码的候选解决方案。为了创建后代，根据适应度函数选择解决方案。初始种群是随机构造的;每个候选解都被评估，以获得每一代的适应度得分。在层次聚类中，分解发生，并且相对于不同的层次模式形成较小的数据集。聚类形成子聚类或叶聚类，其被构造为Dendograms。文档分类的过程在最近几天起着至关重要的作用。几十年来，人们进行了大量的研究，提出了一种新的综合方法，结合文档聚类和分类，以达到最佳的性能。Hadoop是一个可靠的、分布式的、可扩展的开源软件框架，适合于对大量数据进行可扩展的、并行的编程。该框架的设计和实现是为了自动将大数据划分为小段，每个小段可以在任何集群节点上执行，并有效地处理节点故障。Hadoop框架包含两个基本组件：Hadoop分布式文件系统和MapReduce。HDFS可以存储大量数据，并将这些数据划分为每个 64 MB 的较小块。 MapReduce 机制包括两个子阶段： Map 和Reduce。输入的分区块被提供给映射器阶段进行并行处理。映射器相位的输出被给出以减少相位以生成输出。由于单个机器的处理能力有限，因此提高其处理能力将更加昂贵。为了提高单机处理器的性能，采用高效的Map-Reduce框架开发独立于硬件和分布式环境的大规模应用。该模型的主要贡献包括基于基因的特征聚类和分类，用于构建预测分类模型。在该模型中，基于特征的关系基因聚类被用来找到一个文档属于一个特定的基因相关的聚类的概率。如果文档在一个聚类中具有低相似性指数，则将其分组在具有高相似性指数的另一聚类中。有一个有效的索引，有助于从以前的索引中提取相关文件。该方法降低了聚类和分类的估计成本2. 相关作品Rojcek[1]开发了一种新的技术，可以在有限的数据集上实现不受控的模糊聚类和快速模糊分类模型。他们实现了用于文档分类的KMART神经网络的概念，这是一种用于集成聚类和模糊分类的创新方法。聚类和分类算法共享共同的初始权重。这种不受控系统基于两种基本方法，它们是：1。涉及可塑性，2.涉及稳定性。这种方法可以实现在有限的特征集的标记的分类。这些方法在不影响训练集的预定义结构（稳定性）的情况下形成。该模型在小数据集上进行了测试，该算法表现出更好的性能比现有的传统方法的文档聚类和分类有限的实例和维度。该模型的主要局限性是在高维数据集上的误分类率高，真阳性率低Aïtelhadj等人[2]提出了一种新的XML文档聚类技术主要目标是共享共同结构T. Bikku等人/Egyptian Informatics Journal 19（2018）191193* ⁄多个Hadoop结构。该模型分两步执行：第一步，使用特征自动对XML文档进行分类具有公共结构的XML文档更经常地聚集同一查询的结构。他们对真实和合成数据进行评估，并在XML和半结构化文档上实现。随着文档规模和聚类规模的增大，平均聚类错误率和分类正确率逐渐降低。为了增加内容，添加了额外的大型特征集文档，以便改进搜索引擎的查询处理。Chan和Chong[3]强调了基于非文本的分类方案，并确定了分类模型中最常见的问题他们对基于超文本的非文本信息进行分类，目的是对未知文档进行分类。在传统的分类方法中，许多搜索引擎只处理基于文本的文档，而不能检索图形或图表文档。本文提出了一种新的非文本图形文档分类算法，该算法在文档集上分析文档之间的相似性指数。提出并测试了用于分类模型的各种特征向量。该方法与其他方法（如HAC）进行了分析和比较，表明所提出的方法在性能方面远远优于其他方法基于非文本的分类方法的主要问题是，该模型无法处理大量的文档集进行聚类和分类。Curtis等人[4]提出了一种新的无监督模型来处理大量的文档，但这种算法很难对大量文档进行检索和分类。该模型是基于监督学习的，但对于大规模数据，无监督算法的思想是更可行和有效的。在过去的几年中，已经开发了大量的聚类方案，使用无监督学习。在该模型中，对含有缺失值和类别标签的非结构化数据集，实现了一种新的双阈值特征层次分解方法。它会丢弃不属于同一个群集的所有群集。该模型的主要问题包括每次迭代中静态阈值的更新和参数的初始化。Dai等人[5]分析了各种现实世界的应用，并确定了不确定性和不平衡性的局限性。从不同来源的异构数据提取和分类是非常昂贵和耗时的过程。传统的机器学习方法由于不平衡和不确定性而不能有效地执行。在这项工作中，他们对标记的数据进行了分类，在一个单独的域中，并将其称为域内数据，而未标记的数据被归类为域外数据。他们的主要目标是从域内提取知识并在域外实现。他们提出了一种基于协同聚类的分类方案（CoCC），以提高域内和域外的聚类和分类率。他们进行了实证分析和评估他们的工作，并分析说，该模型Diaz-Valenzuela等人[6]确定了半监督方法的主要问题，并提出了一种新的自动监督模型。为了克服半监督方法的局限性，他们提出了一种自动生成数据结构的新方法。基于划分的聚类用于检测不同实例之间的关系特征在文档聚类模型中，分两个阶段对该方法进行了验证和评估该算法的第一阶段包含一个k-means算法，它有助于聚类必须链接或不能链接的约束，随后的阶段使用这些约束与输入数据，半监督聚类在这项工作中确定的主要问题包括动态聚类措施需要使用，以提高模糊约束，提高性能率。Hachenberg和Gottron[7]开发了一种新的方法，通过创新的基于模板的特征提取技术来实现结构分类和聚类。该技术用于查找基于位置的散列和压缩。压缩模式依赖于基于位置的哈希和文档的标签;这种方法在13，000个维度有限的文档上进行了测试。在这个模型中，运行时复杂性不依赖于训练集的大小。传统的医学文献分类算法主要是基于医学主题词（MeSH）来对文献进行分类、索引和建立基于过滤器的生物医学知识库搜索引擎。MeSH是一个每个MeSH树结构便于从根级到叶级的文档术语搜索。随着MeSH术语描述符的大小增加，相应的分层树结构也呈指数级增长，并且使用传统的文档分类模型难以发现重要模式。Ke[9]提出了一种用最少的文档特征表示进行自动文本分类的新技术他们实现了一个最小信息理论（LIT）的文档特征提取。由于信息量与不确定性之间存在非线性关系，香农熵得到了增强。LIT是一种基于信息的概率分布加权方法。有两个用于分类的权重度量，它们是：LI二进制和LI频率，在早期阶段独立评估研究人员用三个基准集合对该方法进行了实验和评估，与其他方法（TF IDF）相比，该方法提供了显著的性能（LIBLin和Chen[10]为具有不同旋律模式的音乐文档开发了一种新的体裁分类方案，包括关键字，统计和低级特征。建议的分类依赖于音乐模式的相关性分析，通过适当的聚类进行分组。通过平滑方法，性能显著提高。他们认为五种不同类型的音乐模式（如爵士乐，抒情，摇滚，古典）被转化为符号模式，并取得了70.67%的准确率。图案被转换成象征性的图案。在生物医学文档分类中，K-最近邻技术是一种特殊的基于机器学习模型的分类方法在文档特征提取和关键词提取上，直到新的实例被分类之后才建立训练模型。KNN模型的基本思想是根据文档特征向量与训练文档集之间的相似性度量对新文档进行分类。训练好模型后，根据最高相似度度量，得到K个文档作为多数投票.Nam和Quoc[11]提出了一种混合方法，将以聚类为中心的过滤器特征选择与以频率为中心的过滤器特征合并为频率聚类特征选择（FCFS）。由于这种集成，FCFS选择MeSH术语，因此它经常出现在每个类别中。他们从两个不同的领域选择数据集这项工作的主要限制包括FCFS的类别内功能的增强，是通过优化文档的接近度来获得的Shruti和Shalini[12]提出了一种新的算法，称为基于模糊关系特征向量中心的聚类算法194T. Bikku等人/Egyptian Informatics Journal 19（2018）191[2019 -04-21][2019 -04 - 21].XX.ΣΣðÞ¼ð=Þ ·ij- 是的ΣΣð½[中文（简体）MD;DMDPD一季二三PDPDPDMDMDMDPDMDPDPDPDMDMDMDMDPDPDPDPD（FRECCA）识别相关的句子集群，它使用模糊聚类这种方法。它比较选择的句子并计算相似性指数。进一步的工作可以做在这个算法中，通过扩展它，以获得更好的性能比FRECCA。遗传算法根据随机类获取输入数据集。在处理之后，产生的解决方案必须包含强互连的簇。Hadoop分布式文件系统由一个名为NameNode的主进程管理，它决定将哪个块分配给哪个服务器，并按顺序维护所有信息。在从进程中，DataNode通过逻辑上将数据划分为固定大小的区域来与操作系统交互。所有这些区域都包含HFiles，这些HFiles能够存储位于列中的数据集。当特定区域超过最小大小限制时，报告分为两部分。集成和分解等操作通过后台进程执行，不会影响正常的行为。这些方法允许HBase在支持顺序读取数据的文件系统上构建随机访问数据库。ElasticSearch（ES）可以定义为一个软件框架，它依赖于Lucene，并提供大型数据集的分布式和实时搜索。索引是一种特殊的数据结构，它以有效的格式存储HDFS数据。Lucene索引模型为构建高效和可伸缩的索引提供了更好的解决方案。提出模型的动机：传统的模型不能有效地对不同初始化参数的高维文档进行分类。传统的生物医学文档分类模型在有限的数据集上进行评估，具有有限的内存约束和运行时间因素。基于基因相似性的生物医学文档分类模型在没有符号基因名称的静态训练基因集上进行了测试。随着不确定性和噪声文档的增加，由于内存限制和缺乏最佳特征选择措施，传统模型的准确性和真正性降低。3. 该模型所提出的模型集中在发现基因特征识别与文档聚类和分类如图1所示。该模型从非结构化数据中发现高质量的基因-疾病信息。通过合并丰富的文档表示，它解决了机器学习中的文本分类问题。基于基因的向量表示有助于作为语义的度量。该模型优化了基于基因的特征聚类和分类，负责预测分类模型的构建。在该模型中，基于特征的关系基因簇被用来找到一个文档属于一个特定的基因相关的集群的概率。如果文档在一个聚类中具有低相似性指数，则将其分组在具有高相似性指数的另一聚类中。有一个有效的索引，它有助于提取相关的文件，从索引。该方法降低了聚类和分类的估计成本。在这个模型中，医疗文档从每个数据源收集的结构化或非结构化的格式。在该系统中，一种新的基因基于文档3.1. 基因特征选择方法使用所提出的特征选择方法进行基因-疾病特征选择，如下：基因互信息测度基于基因的文档特征提取使用基因互信息测度。这一措施在映射阶段实施。随着生物医学文档大小的增加，该度量找到具有最高概率度量的过滤后的候选集该方法将聚类文档作为输入，并从内部和内部聚类文档集中找到最高特征基因互信息可以使用以下公式计算GeneMIGMI最大概率GDWWVDlogProbGDWi=群集½m]ProbClusters½m]ð1ÞProb GDWi= Clusters是存在于给定文档聚类中的GDWi基因卡方测度基于基因的卡方度量计算生物医学文档聚类之间的关系。该度量还评估聚类文档的基因项与MeSH项之间的依赖性。Prob GDW=聚类m最大概率GDW= WVD：最大概率GDW= WVDQProbGDWi×QProbClusters½m]ð2Þ其中，Prob GDWi= Clusters m，基因是出现在第m个聚类中的相关特征向量的概率。3.2. MapReduce算法输入：Medline Source MS、Pubmed Source PS。MDfD12 3MDMD ... D pg代表medline培训文件PD f D 1; D 2; D 3;.. . Dqg代表PubMed trianing文档;u表示阈值矢量文档集输出：基于基因的实体识别和聚类// Mapper阶段映射器MPERM DfD1;D2;D3;. . . Dpg; PD f D; D; D;.. . D g; k; Qlc1. 设M/2/4映射器节点为节点; Di为节点2. D/D1;D2;D3... D p; D 1; D 2; D 3;.. . D q3. 对于D中的每个文档，VecDocs Di;VDi转换为Doc 2 Vecs Di;//文档到向量表示做●●●●;DT. Bikku等人/Egyptian Informatics Journal 19（2018）191195≤Pð ÞPð¼¼ÞðÞ¼P半]半][2019 - 04 - 25 ]ÞÞ ωðÞ4. 对于VDi中的每个向量v，以VecDoc（Di），tf，itf，W的形式表示每个文档>//替换缺少的值如果v/然后对于VecDoc D中的每个项t，i做simv½] ¼概率t=VDω概率t做VecDocvmaxfsimv½]g;VecWgt = log（VecDocDi/（tf））itf; //向量权重、词频和逆词频//加权向量文档WVD i（1.. . VecDoc[i].length）VecDoc（Di），tf，itf，VecWgt >完成5. //计算Gene文档之间的相似度。让基因数据库和基因同义词表示为G1/2/GeneDB语料库SynDB语料库对于WVDi中的每个加权向量项WVDi（t），对于G[j]中的每个基因关键字j，如果（WVDi（t）==G[j]），则//计算基因权重为Genew=tfi概率G j=具有权重的prob tfi WVDiGW WVDi，t，基因权重>= WVDi，t，基因权重>其他continue;end ifend for6. 对于WVDi中的每个加权向量项WVDi（t），//按文档的总基因权重TGW= Genew=N;if（TGW>u）//总基因权重必须满足阈值然后//为Syn[]中的每个同义词提取高权重基因的同义词doSynList WVDi（t），S[]= WVDi（t），Syn[WVDi（t）] SGenewprobsi\G½j]=probsiω WVDiVecWgt做新Genew ¼TGW新Genew= N<总基因重量>< WVD i; NewGenew>其他继续;结束7. 簇合物[1/2]/1/2团聚体[WVDi;GDW; G1/2]; Syn1/2]8. 还原剂WVDi; GDW; G; Syn;簇><使用基于基因的卡方检验选择顶级基因特征基于互信息的基因测量方法。9.对于每个集群实例，映射器Mi中的GWDi为每个GWDi构建修改的多标称朴素贝叶斯树。对于GWDi中的每个属性Ai，使用集成特征选择度量将属性选择度量计算为：设Amax为具有最大属性选择度量的属性。使用最大属性Amax构建MNB树：将映射器Mi树返回到Reducer阶段Reduce Mi; return MNB（GWDi）>。做做end if196T. Bikku等人/Egyptian Informatics Journal 19（2018）191Fig. 1. 提出的模型。在Mapper阶段，处理每个生物医学文档以找到稀疏度和空值。最初，训练数据集D使用Medline和PubMed存储库进行预训练。训练数据中的每个文档都以矢量格式表示。在这里，使用基因术语实体发现过程提取文档基因、疾病和MeSH术语。对于vector docu中的每个文档-用于找到用于特征选择测量的簇间和簇内基因文档。在这里，建议的基因互信息和卡方特征选择措施被用来找到疾病模式的基因依赖关系。最后，提取具有最高基因-疾病文档模式的文档作为Reducer阶段的候选集。// Reducer PhaseReducer Mapper-M [i]，Patterns[]>1. 对于列表中的每个M[i]，执行Apply HashJoin操作并显示模式列表中的前k个模式完成2. 在Hadoop框架的reducer阶段，使用HashJoin操作从基因-疾病文档模式中找到前k个模式作为决策模式。在向量格式中计算文档集、术语相似度和权重，作为加权向量文档集WVD。在接下来的步骤中，基因文档之间的相似性计算使用基因数据库和基因同义词提取方法。最高的基因疾病模式的文档被提取的文档聚类和特征选择过程。凝聚聚类法4. 实验结果在这项实验研究中，我们在Medline和PubMed存储库上应用了所提出的框架[13，14]。我们使用当前的Apache Hadoop框架和Amazon AWS服务器。Amazon AWS服务器的配置包含T. Bikku等人/Egyptian Informatics Journal 19（2018）19119710Amazon Web Services EC2有三种不同类型的存储大小，如小型，中型，大型，这种类型包括各种云资源。这些实例类型可用于多个区域。如今，云计算技术已经在许多应用领域得到了广泛的应用.在大多数情况下，客户不知道他们的云使用情况。中小型企业正在向云计算迁移，因为云计算可以更快地访问其应用程序并降低基础设施成本。云计算的过程可以被认为是一种商业模式，其中计算服务被出售和出租。云计算技术的主要关注点是根据用户的需求提供不同的云服务， Amazon Elastic Compute Cloud （ AmazonEC2）在云中提供可变大小的计算能力。EC2为开发人员提供了简单易用的Web规模计算。Amazon EC2 支持所有主流操作系统，包括 RedHat Linux 、Windows Server、SuSE Linux、Ubuntu、Fedora、Debian、Cent OS、Gentoo Linux、Oracle Linux和FreeBSD。亚马逊计划在未来为EC2实例添加几个额外的操作系统。为了成功地操作这项工作，实现了64位Ubuntu服务器12.04。通常，AMI使用t1.large，因为它支持32位和64位操作系统。在表1中，说明了Hadoop集群节点、文档大小及其统计计算从该表中，平均基因指定在生物医学文档集中识别的基因的平均数量，排名基因文档指定基因对疾病模式及其相关同义词的排名从表1中可以观察到，所提出的模型在大型训练数据集上具有高平均排名的发现模式和相关基因。表2，说明了Hadoop集群节点、文档大小及其性能分析。从表2中，平均基因说明在生物医学文档集中鉴定的基因的平均数量AvgTime指定Hadoop框架中Hadoop集群节点所用的平均时间。从表2中可以观察到，所提出的模型在大型训练数据集上具有高的平均基因发现模式和更少的平均时间表1不同hadoop集群节点的关系基因文档及其统计Hadoop集群节点文件（×100000）平均基因（×1000）排名基因文档相关基因（×1000）551.60.570.14210102.11.460.25115153.81.960.83520204.162.430.97625254.893.171.75表2不同hadoop集群节点下的平均基因文档及其时间计算Hadoop集群节点文件（×100000）平均基因（x1000）平均时间（秒）551.65210102.16115153.87920204.168625254.89102表3不同Hadoop集群节点的平均排序基因文档及其质量聚类率Hadoop集群节点文件（x100000）排名基因文档聚类率550.570.96510101.460.97515151.960.98620202.430.97525253.170.972图二. 不同Hadoop集群节点的平均排序基因文档及其质量聚类率。198T. Bikku等人/Egyptian Informatics Journal 19（2018）191~~~表4本文提出的模型在文档聚类和分类率上优于传统模型。算法u= 0.5u= 0.7u= 0.8u= 0.9K-modes8381.6583.2382Knn + K均值68.457476.3476.89米德87.8986.3485.6787神经网络85.8979.0574.5677.12GA + SVM7475.7876.4579.45多类集成模型93.4594.1695.2496.74该模型94.6296.2597.4597.95图三. 提出的模型与现有模型的性能分析。表3，说明了Hadoop集群节点、文档大小及其性能分析。从表3中，排序的基因文档指定了基因对疾病模式及其在生物医学文档集中的关系同义词的排序聚类质量率根据hadoop框架中文档中基因项的正确性来指定聚类率。从表3中可以看出，所提出的模型在大型训练数据集上具有较高的聚类率。从图 2.排序基因文档指定了基因对疾病模式及其相关同义词在生物医学文档集中的排序。聚类质量率根据hadoop框架中文档中基因项的正确性来指定从表4和图3中可以看出，在不同的节点配置和阈值上，所提出的模型比传统的集成模型实现了（97.5%）的准确度，X轴上的准确度和Y轴上的不同模型。当基因模式阈值的大小从0.5增加到0.9时，与传统模型相比，该模型具有更高的5. 结论生物医学文档聚类与分类是实时用户推荐系统知识抽取过程中必不可少的机器学习模型之一随着生物医学存储库中信息量的增加，许多组织都面临着如何有效处理可用数据量的本文提出了一种新的基于特征选择的文档聚类和此模型用作使用Hadoop框架的较大文档集上的用户推荐系统实验结果表明，与传统的文档聚类和分类模型相比，该模型具有较高的计算聚类质量率（96%）和真阳性分类率（的因此，计算复杂度为O（nlogn），而计算复杂度为O（logn）。在未来，这项工作可以扩展到使用Hadoop框架的蛋白质聚类和分类。引用[1] 罗依切克湾模糊文档聚类与快速模糊分类系统。第15届IEEE计算智能与信息学国际研讨会; 2014年。p.39-42.[2] Aïtelhadj A，Boughanem M，Mezghiche M，Souam F.使用结构相似性对XML文档进行聚类; 2011.p. 109比139[3] 陈绍文，庄伟明。无监督聚类在非文本网页分类中的应用。 Decis SuppSyst2004：377-96.[4] 黄伟杰，王晓刚，王晓刚.一种用于文档图像类型无监督分类的层次特征分解聚类算法。2007年第六届机器学习与应用国际会议。p.423-8.[5] 戴伟，薛刚，杨琦，余勇。基于共聚类的域外文档分类。第13届ACM SIGKDD知识发现和数据挖掘国际会议论文集。ACM; 2007年。p. 210-9[6] Diaz-Valenzuela I，Loia V，Martin-Bautista MJ，Senatore S，Vila MA.半监督聚类的自动约束生成：文档分类的经验。软计算2016;20（6）：2329-39。[7] Hachenberg C，Gottron T.局部敏感散列法用于可扩展的web文档结构分类和聚类。第22届ACM信息知识管理国际会议论文集。ACM; 2013年。p. 359比63[8] 张文辉，张文辉.为文本分类集成丰富的文档表示。在：IEEE系统和信息工程设计会议（SIEDS '16）"; 2016年。p. 303-8[9] Ke W.用于自动文本分类的最少信息文档表示。在：美国信息科学与技术学会论文集49.1; 2012。p. 1比10[10] 作者：Lin B，Chen T.基于旋律模式提取和聚类的音乐文档体裁分类在：人工智能技术和应用会议; 2012年。p. 39比43[11] Nam LN，Quoc HB.文档分类中过滤特征选择的一种组合方法2015年IEEE第27届人工智能工具国际会议。p. 317-24[12] Shruti S，Shalini L.基于模糊聚类算法的文本句子聚类。2014年国际控制、仪器、通信和计算技术会议（ICCICCT）p. 1473-6[13] https://www.ncbi.nlm.nih.gov/pubmed/网站。[14] https://www.nlm.nih.gov/bsd/pmresources.html网站。

下载后可阅读完整内容，剩余1页未读，立即下载