没有合适的资源?快使用搜索试试~ 我知道了~
可在www.sciencedirect.com在线获取理论计算机科学电子笔记343(2019)19-33www.elsevier.com/locate/entcs利用X射线检测肺结核改进的SSL算法Ioannis Livierisa,1,2 Andreas Kanavosb,3 PanagiotisPintelasa,4a帕特雷大学数学系希腊帕特雷b帕特雷大学计算机工程信息学系希腊帕特雷摘要计算机辅助医疗诊断的一个重要组成部分是从数字胸部X射线中自动检测肺部异常;因此,它构成了放射图像分析的重要第一步。 在过去的几十年中,数字技术和胸部X射线摄影的快速发展最终导致了具有标记和未标记图像的大型存储库的发展。半监督学习算法利用未标记图像中隐藏的知识来挖掘标记图像的显式分类信息,已成为研究的热点。在目前的工作中,我们提出了一种新的半监督学习算法,用于基于集成哲学的X射线肺部异常分类。数值实验证明了算法的有效性,说明了算法的可靠性。通过在半监督框架中纳入集合方法,可以开发出有能力的预测模型。关键词:半监督学习;自标记算法;集成学习;多数投票;图像分类。1引言尽管医学的进步,以及有效治疗的发展,由肺异常引起的疾病被认为是世界范围内最大的根据世界卫生组织(WHO)的数据,肺炎导致约1. 每年有500万5岁以下的儿童,仅在2013年,1通讯作者2电子邮件:livieris@teiwest.gr3电子邮件:kanavos@ceid.upatras.gr4电子邮件:ppintelas@gmail.comhttps://doi.org/10.1016/j.entcs.2019.04.0081571-0661/© 2019作者。出版社:Elsevier B.V.这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。20I. Livieris等人/理论计算机科学电子笔记343(2019)19据估计,1。500万人死于结核病,900万新发病例[26]。用于检测肺部异常的典型方法包括后前位胸部X射线(CXR),以便搜索肺部区域以寻找可能存在的任何异常。由于其易于获得和相对较低的成本,CXR成像被广泛用于健康诊断和监测。在医学中心,图像解释主要由人类专家执行,并且被认为是一个漫长而复杂的过程。然而,区分各种胸部病理是一项困难和具有挑战性的任务,即使是专家人类观察员。因此,诊断医学领域发生了巨大的变化;从基于整个器官观察的定性科学转变为基于从数据库中提取知识的定量科学[24]。更具体地说,研究重点是开发智能计算机辅助诊断系统,用于自动识别CXR异常,以帮助放射科医生识别和整合胸部图像中所有可用的这些系统结合了机器学习和数据挖掘技术,以便利用由患者记录和实验室数据提供的大量信息为此,提出了若干方法和技术,旨在:• 分类和/或检测异常的存在(图像分类);• 识别肺的边界以提取定量信息并将图像分割成正常和异常(医学图像分割)。Mansoor等人[25]提出了一个扩展的审查,并解释了目前可用的方法的能力和性能,用于分割肺部与病理条件的胸部断层扫描图像。此外,他们将肺野分割方法分为五大类,并概述了每组方法的相对优点和缺点Candermir等人[6]提出了一种稳健的肺部分割方法,该方法利用基于图像检索的患者特异性自适应肺部模型检测肺部边界。他们提出的方法将非网格配准与预分割肺部区域的CXR数据库相结合,以开发一个解剖图谱作为指导,并结合基于图像区 域 细 化 的 图 形 切 割 他 们 利 用 来 自 三 个 不 同 数 据 集 的 585 张 胸 片 进 行 了 一Rajaraman等人[30]提出了一种基于卷积神经网络的决策支持系统,以加快病理学的准确诊断他们提出的系统可检测儿科CXR中的肺炎,并进一步区分细菌和病毒类型,以促进需要紧急医疗干预的快速转诊在最近的研究中,Santosh和Antani [32]开发了一种新的概念,该概念考虑了左右肺区域在对称性方面的变化,以检测结核病的证据。他们的方法利用了CXR图像中显示的常见肺部异常,包括空洞、实变、膨胀,I. Livieris等人/理论计算机科学电子笔记343(2019)1921肋间角变钝,混浊,胸膜膨出。与其他最先进的技术不同,他们已经证明,这些特征的表现方式适用于胸部X射线筛查,以检测肺部异常。Alam等人[2]使用多类支持向量机分类器开发了一种有效的肺癌检测和预测算法在分类的每个阶段,图像增强和图像分割已经分别完成此外,图像缩放,颜色空间变换和对比度增强已被用于图像增强,而阈值和标记控制的分水岭为基础的分割已被用于分割。然后,从分离的感兴趣区域提取一组纹理特征进行分类,该算法可以有效地检测输入图像是否包含肿瘤。然而,尽管所有这些努力,仍然没有广泛使用的方法;主要是由于缺乏用于有效地训练准确的监督分类器。随着数字化胸部摄影技术的飞速发展,随着互联网的发展和电子医疗记录的广泛采用,研究中心已经积累了大量分类(标记)图像和大多数来自人类专家的未分类(未标记)图像。通过利用这些图像,研究人员和医学研究人员具有改变生物医学研究和医疗保健提供的巨大潜力。然而,正确标记新的未标记的CXR的过程经常需要专业人员和专家医师的努力,这会产生很高的时间和金钱成本。为了解决这个问题,半监督学习(SSL)算法构成了一种适当的机器学习方法,用于从标记和未标记的数据中提取有用的知识这些算法包括监督和无监督学习算法的特征,以便有效地将标记数据的显式分类信息与未标记数据中的隐藏信息相结合,以构建有效的分类器[7,36]。自标记算法可能被认为是最流行的一类SSL算法,它通过基于监督预测模型的自学习过程来利用未标记的数据。他们执行一个迭代过程,目的是获得一个扩大的标记数据集,其中他们接受自己的预测往往是正确的。最近,Zem- mal等人[41]实现了一种计算机辅助检测系统,用于从乳腺X线摄影图像中诊断乳腺癌,该系统基于半监督支持向量机分类器。沿着这条线,Livieris等人。[24]提出了一种用于结节病胸部X射线分类的半监督学习算法。他们提出的算法利用了三种最有效和最常用的自标记算法的单独预测,即,共同训练、自我训练和三重训练,使用投票方法。他们的数值实验展示了所提出的SSL算法的有效性及其分类准确性,因此说明可以利用少量标记和许多未标记的数据开发可靠的预测模型。受他们工作的启发,我们提出了一个新的半监督自标记算法,它是基于集成哲学。该算法的前-22I. Livieris等人/理论计算机科学电子笔记343(2019)19利用自我标记算法的个人预测,使用多数投票方法。我们的初步数值实验提出了所提出的算法的效率和分类精度,说明可靠的预测模型可以通过将集成方法纳入半监督框架。本文的其余部分组织如下:第2节简要描述了半监督自标记算法,第3节详细描述了所提出的算法。第4节提出了一系列的实验进行,以检查和评估所提出的算法对最流行的自标记分类算法的准确性。最后,第5节讨论了结论和未来工作的一些研究课题2关于半监督自标号分类算法在本节中,我们给出了半监督分类问题的形式定义。设(x,y)为例,其中x属于类y和D维空间,其中xi是实例的第i 假设训练 集合LU由N L个实例的标记集合L和NU个实例的未标记集合U组成,其中NLNU是已知的,其中Y是未知的。此外,存在NT个未知实例的测试集T,其中y是未知的,其尚未在训练阶段被利用。值得注意的是,半监督分类的基本目标是利用训练集获得准确的学习假设,特别是当标记实例的数量较低时。自标记方法构成了突出的SSL方法,其通过基于监督预测模型的自学习过程来解决标记数据的不足。这类算法的特点是实现简单,以及他们的包装器为基础的哲学。从理论的角度来看,Triguero等人。[36]提出了一个基于他们提出的主要特征的深入分类法,并在几个数据集上对其分类效率进行了详尽的研究。接下来,我们简要介绍了文献中提出的最相关的自标记方法,这些方法分为两大类:自训练和协同训练。自训练算法[40]被认为是利用未标记数据的最简单和有效的算法之一该算法围绕基本学习器,并利用自己的预测为未标记的数据分配标签更具体地说,监督分类器最初在标记的示例上进行训练,并且在每次迭代中,训练逐渐增加分类的未标记实例,这些实例的概率值超过定义的阈值c。然而,如果噪声样本被描述为置信样本,它们可以在以后被纳入标记的训练集;因此,这种技术可能导致错误的预测和低分类精度[44]。另一方面,在标准的Co-training算法[5]中,数据的属性被分成两个条件独立的视图。随后,两个分类器在每个视图和每个I. Livieris等人/理论计算机科学电子笔记343(2019)1923他们互相传授最有把握的预测例子。Nigam和Ghani进行了广泛的实验分析,并得出结论,当两个不同且独立的视图自然存在时,Co-training算法优于其他自标记算法不幸的是,假设存在足够的和多余的视图是一种奢侈,在大多数真实情况下几乎没有遇到一般来说,文献中提出的自标记算法是基于这些算法的哲学,而大多数是利用集成的思想和技术。Tri-training算法[43]可能是最具代表性的方法,它基于集成哲学,并构成了Co-training算法的改进单视图扩展一般来说,该算法试图将最可靠的未标记数据确定为三个分类器的一致性,并且可以将其视为三个分类器的装袋集合,这些分类器在通过从原始标记训练集[13]中进行自举采样生成的数据子集上进行训练。具体地说,在每次Tri-training迭代中,每个分类器的标记集都会增加一个未标记的实例,如果不一致,则从其他两个分类器中标记。Democratic Co-learning算法[42]基于集成学习和多数表决的思想更具体地说,它不是要求相应数据的多个视图,而是利用多种算法来产生必要的信息,并支持投票多数过程来做出最终决定。基于以前的工作,Li和Zhou[18]提出了Co-Forest算法,该算法基于从数据集中的Bootstrap数据高效地训练许多随机树。该算法的基本思想是在训练过程中将少量未标记的样本分配给每棵随机树。最后的决定由简单多数表决组成。值得注意的是,Co-Forest的效率是基于随机树的利用,尽管可用的标记示例的数量减少了Hady和Schwenker [13]提出了一种相当类似的方法,他们提出了Co-Bagging算法,其中置信度是根据委员会成员的局部准确性来估计它使用相同的学习算法创建几个基本分类器,这些算法是在通过从原始训练集进行替换的随机恢复创建的引导样本上进行的。每个Bootstrap样本包含约2/ 3的原始训练集,其中每个示例可以出现多次。在最近的作品中,Livieris et al.[24]和Livieris[20]提出了一些基于投票方案的集成自标记算法这些算法结合了三个自标记算法的单独预测,即自我训练、联合训练和三重训练利用不同的投票机制组合受以前工作的启发,在[23]中,作者提出了一种新的半监督学习算法,称为AAST,它基于自训练哲学从分类器池中动态选择最有前途的学习者。AAST最初使用几个独立的基本学习器,并在训练过程中动态选择相对于策略最有前途的基本学习器24I. Livieris等人/理论计算机科学电子笔记343(2019)19基于未标记数据的最有把握的预测的数量。3一种新的包围自标记算法在本节中,我们提出了一个详细的描述所提出的自标记算法,这是基于一个集成的哲学,题为EnSL(Ensemble Self-Labeled)算法。通常,分类器集合的生成主要考虑两个步骤:选择和组合。分量分类器的选择被认为是集合效率的关键,而其效率的关键点是基于它们的多样性和准确性;而单个分类器的预测的组合通过具有不同哲学的几种通过考虑这些,所提出的算法基于生成集合C =(C1,C2,...,通过将不同的算法(具有异构模型表示)应用于单个数据集,并通过多数投票方法组合它们各自的预测,来实现N个自标记分类器的C N)。在算法1中提出了对所提出的算法的高级描述,称为EnSL,算法1由两个阶段组成:训练和投票融合阶段。在训练阶段,构成集合的自标记算法使用相同的标记L和未标记U数据集进行训练(步骤1- 3)。接下来,在投票融合阶段,对每个未标记的样本x的最终假设测试集使用多数投票方法组合自标记算法的各个预测(步骤4- 9)。 拟议的EnSL概述如图1所示。4实验方法在本节中,我们提出了一系列实验,以评估所提出的EnSL用于X射线分类与最有效和最常用的自标记算法的性能。实现代码是用Java编写的,使用WEKA 3。9机器学习工具包[14]。我们的实验结果是通过进行两个阶段的程序获得的:在第一阶段,我们评估了所提出的算法EnSL对最流行的自标记算法,即。Self-training,Co-training,Tri-training,Co-Bagging,CST-Voting,Co-Forest和Democratic-Co learning,而在第二阶段,我们在所有比较的半监督自标记算法之间进行了统计比较I. Livieris等人/理论计算机科学电子笔记343(2019)1925算法1EnSL输入:L-标记实例的集合。U-未标记实例的集合。C =(C1,C2,...,C N)-构成集合的自标记分类器的集合。/* 第一阶段:培训 */1:对于每个Ci∈C,2:使用标记的L和未标记的数据集U训练Ci。3:结束/* 第二阶段:投票融合 */4:对于每个x∈T,5:对于每个Ci∈C,6:在实例x上应用分类器Ci。7:结束8:使用多数投票来预测x的标签y。9:结束输出:测试集中实例的标签一期培训标记未标记标记未标记标记未标记set set set set set set set分类器1分类器2分类器N二期投票融合测试设多数表决Fig. 1. EnSL算法26I. Livieris等人/理论计算机科学电子笔记343(2019)19分类算法的性能使用以下四个性能指标进行评估:灵敏度(Sen)、特异性(Spe)、F-测量(F1)和准确性(Acc),分别定义为:TPTNSen=,Spe=, F12TP=TP+TNAcc=,TP+FNTN+FP2TP +FN+FPTP+TN+FP其中TP代表被正确分类为正的实例的数量,TN代表被正确分类为负的实例的数量,FP(第一类错误)代表被错误分类为正的实例的数量,FN(第二类错误)代表被错误分类为负的实例的数量。值得一提的是,分类的灵敏度是预测为阳性的实际阳性的比例;特异性代表预测为阴性的实际阴性的比例,F1由精确度和召回率的调和平均值组成,而准确度是分类器正确预测的比例。4.1数据集使用三个不同的数据集对比较的半监督学习分类算法进行了评估:胸部X射线(肺炎)以及CT医学图像数据集。• 胸部X线(肺炎)数据集:该数据集包含5830张胸部X线图像(前-后),这些图像选自广州市妇女儿童医疗中心1 - 5岁儿童患者的回顾性队列所有胸部X线成像均作为患者常规临床护理的一部分进行。对于胸部X射线图像的分析,通过删除所有低质量或不可读的扫描,对所有胸部X射线照片进行初始筛选以进行质量控制图像的诊断然后由两名前医生分级,然后被清除用于训练人工智能系统。为了说明任何评分错误,还由第三位专家检查了评价集。此外,将数据集划分为两个集合(训练/测试),其中训练集合由5216个示例(1341个正常,3875个肺炎)组成,测试集合由624个示例(234个正常,390个肺炎)组成,如[16]所示。• CT医学图像数据集:该数据集1包含100张图像[3],这些图像构成了一个更大的数据集的一部分,重点是通过提供与癌症基因组图谱[8]中的受试者匹配的临床图像,将癌症表型与基因型联系起来。这些图像包括所有计算机断层成像(CT)图像的中间切片,其中可以找到有效的年龄、模态和对比度标签,这导致来自69名不同患者的475个系列。此外,设计该数据集是为了评价不同的方法,以检查与使用造影剂和患者年龄相关的CT图像数据的趋势。其基本思想是识别图像纹理、统计模式和第1https://www.kaggle.com/kmader/siim-medical-images/homeI. Livieris等人/理论计算机科学电子笔记343(2019)1927与这些特征密切相关的特征,并可能构建简单的工具当这些图像被错误分类时,自动对它们进行分类(或发现异常值,这些异常值可能是可疑的情况,错误的测量或校准不良的机器)。请注意,所有比较的算法都是使用该数据集上的分层10倍交叉验证进行为了研究标记数据量的影响,(R)的训练数据,即,10%、20%、30%和40%。4.2半监督自标记算法的性能评价在续集中,我们把我们的兴趣集中在实验分析,以评估分类性能的EnSL算法对它的组件自标记的方法,即自我训练,共同训练,三训练,共同装袋,CST投票,共同森林,民主共同学习。注意,第一个自标记方法是通过部署序列最小优化(SMO)作为基本学习器来评估的[28],C 4。5决策树算法[29]和kNN算法[1]。这些监督分类器可能构成了分类问题中最有效和最流行的机器学习算法[39]。此外,类似于Blum和Mitchell[5],建立了所有自标记算法的迭代次数限制,这也被许多研究人员采用[19构成EnSL集成的自标记算法有:自训练,利用C4的三训练。5作为基本学习器,使用(SMO)作为基本学习器的Co-training,Co-Forest和Democratic-Colearning。这种选择的动机是基于这样一个事实,即这些算法已被报告为最有效的自标记算法[36]。我们记得,这些方法是自标记的,利用隐藏的信息在未标记的数据使用不同的方法。更具体地说,除了每种方法使用的分类器数量外,关键问题是它们是由相同(单个)还是不同(多个)学习算法组成。自训练、协同训练、三重训练和协同森林是单一的学习方法,而民主协同学习是一种多元的学习方法。所有自标记算法都使用了[4,24,36]中的配置参数设置。此外,与[20- 24 ]类似,所有基础学习器都使用WEKA 3中包含的默认参数设置。9库[14],以最大限度地减少任何专家偏见的影响,而不是试图将任何算法调整到特定的数据集。表1和表2分别显示了所有自标记方法在Adjacent- nia数据集上的性能,标记比率分别为10%- 20%和30%-40%。注意,每个标记比率和性能的最高分类性能曼斯度量以粗体突出显示。结果表明,EnSL方法是最有效、最稳健的方法,且与训练集中已标记实例的利用率无关。此外,值得注意的是,EnSL在Acc和F1性能指标方面表现最好.28I. Livieris等人/理论计算机科学电子笔记343(2019)19算法森比率= 10%SpeF1ACC森比率= 20%SpeF1ACC自我训练(SMO)百分之九十五点一三40.60%82.44%74.68%百分之九十五点九40.60%82.83%75.16%联合列车(SMO)94.10%34.62%80.66%71.79%百分之九十四点三六35.04%80.88%72.12%三联列车(SMO)百分之九十五点三八39.32%82.30%74.36%百分之九十五点九40.17%82.74%75.00%联合装袋(SMO)百分之九十四点八七37.18%81.59%73.24%百分之九十五点九38.03%82.29%74.20%CST-表决(SMO)百分之九十六点九二39.32%83.08%75.32%百分之九十六点九二40.17%83.26%75.64%自训练(C4.5)百分之九十三点五九53.42%84.49%78.53%百分之九十三点八五53.85%84.72%百分之七十八点八五共车(C4.5)百分之九十六点一五44.02%83.71%76.60%百分之九十六点六七44.44%84.06%77.08%三列(C4.5)百分之九十三点五九57.26%百分之八十五点三八百分之七十九点九七94.10%57.69%百分之八十五点七五百分之八十点四五共装袋(C4.5)92.56%53.85%84.05%78.04%百分之九十三点五九56.84%85.28%79.81%CST-投票(C4.5)94.62%55.56%85.52%百分之七十九点九七百分之九十四点八七56.84%百分之八十五点九五80.61%自训练(kNN)百分之九十三点八五44.87%82.71%75.48%百分之九十四点三六45.30%83.07%75.96%联合训练(kNN)百分之九十六点九二32.05%81.55%72.60%百分之九十六点九二32.05%81.55%72.60%Tri-train(kNN)百分之九十三点五九44.44%82.49%75.16%百分之九十二点八二44.44%82.09%74.68%共装袋(kNN)百分之九十点七七47.44%81.66%74.52%91.54%百分之五十点八五82.83%76.28%CST-投票(kNN)百分之九十五点一三42.74%82.91%75.48%百分之九十五点一三43.59%83.09%75.80%Co-Forest百分之九十七点一八44.02%84.22%77.24%百分之九十八点四六44.87%百分之八十五点零五78.37%民主公司百分之九十六点一五47.01%84.36%77.72%百分之九十七点一八47.44%84.98%78.53%EnSL百分之九十七点九五55.98%87.31%82.21%百分之九十八点二一54.70%87.14%81.89%表1比率R= 10%和R= 20%时,I. Livieris等人/理论计算机科学电子笔记343(2019)1929算法森比率= 30%SpeF1ACC森比率= 40%SpeF1ACC自我训练(SMO)百分之九十六点一五40.60%82.96%75.32%百分之九十六点一五40.60%82.96%75.32%联合列车(SMO)百分之九十五点三八35.90%81.58%73.08%百分之九十六点一五37.18%82.24%74.04%三联列车(SMO)百分之九十五点九40.60%82.83%75.16%百分之九十五点九41.03%82.93%75.32%联合装袋(SMO)百分之九十五点九39.32%82.56%74.68%百分之九十五点九42.74%83.30%75.96%CST-表决(SMO)百分之九十七点一八40.17%83.39%75.80%百分之九十七点一八40.17%83.39%75.80%自训练(C4.5)94.10%56.84%百分之八十五点五五百分之八十点一三94.10%57.26%85.65%百分之八十点二九共车(C4.5)百分之九十六点六七44.44%84.06%77.08%百分之九十六点九二44.44%84.19%77.24%三列(C4.5)94.10%58.12%百分之八十五点八五80.61%百分之九十四点八七58.55%86.35%81.25%共装袋(C4.5)94.10%57.69%百分之八十五点七五百分之八十点四五百分之九十五点一三57.69%86.28%81.09%CST-投票(C4.5) 百分之九十五点一三59.40%86.68%81.73%百分之九十五点一三59.83%86.78%81.89%自训练(kNN)百分之九十三点八五45.30%82.81%75.64%94.62%46.15%83.39%76.44%联合训练(kNN)百分之九十六点九二32.05%81.55%72.60%百分之九十六点九二32.91%81.73%72.92%Tri-train(kNN)91.54%45.30%81.60%74.20%百分之九十三点零八47.01%82.78%75.80%共装袋(kNN)百分之九十二点三一51.28%83.33%76.92%91.79%51.71%83.16%76.76%CST-投票(kNN)百分之九十四点八七44.44%百分之八十三点一五75.96%百分之九十五点六四45.30%83.73%76.76%Co-Forest百分之九十八点二一45.73%85.11%78.53%百分之九十七点六九46.15%84.95%78.37%民主公司百分之九十七点六九47.44%85.23%百分之七十八点八五百分之九十八点二一51.71%86.46%80.77%EnSL百分之九十八点二一57.69%87.84%83.01%百分之九十八点七二55.98%87.70%82.69%表2所有自标记算法在比率R= 30%和R= 40%的表3和表4显示了所有自标记方法在CT Medical数据集上的性能,相对于所有性能指标,分别使用等于10%- 20%和30%- 40%的如上所述,30I. Livieris等人/理论计算机科学电子笔记343(2019)19性能最佳的自标记算法以粗体突出显示。类似的观察结果也可以用以前的基准进行。首先,值得一提的是,所提出的算法EnSL表现出最好的性能。关于F1和Acc指标,EnSL在所有情况下都表现出最高的准确性,其次是CST投票。最后,结果清楚地表明,EnSL的分类性能随着标记率的增加而增加算法森比率= 10%SpeF1ACC森比率= 20%SpeF1ACC自我训练(SMO)66.00%62.00%64.71%64.00%72.00%68.00%70.59%百分之七十联合列车(SMO)44.00%64.00%48.89%54.00%50.00%百分之七十55.56%60.00%三联列车(SMO)66.00%62.00%64.71%64.00%72.00%68.00%70.59%百分之七十联合装袋(SMO)66.00%62.00%64.71%64.00%72.00%68.00%70.59%百分之七十CST-表决(SMO)68.00%64.00%66.67%66.00%74.00%百分之七十72.55%72.00%自训练(C4.5)64.00%66.00%64.65%65.00%68.00%百分之七十68.69%69.00%共车(C4.5)40.00%50.00%42.11%45.00%40.00%54.00%43.01%47.00%三列(C4.5)72.00%62.00%68.57%67.00%72.00%66.00%69.90%69.00%共装袋(C4.5)64.00%64.00%64.00%64.00%68.00%68.00%68.00%68.00%CST-投票(C4.5)百分之七十64.00%67.96%67.00%74.00%68.00%71.84%71.00%自训练(kNN)62.00%64.00%62.63%63.00%68.00%百分之七十68.69%69.00%联合训练(kNN)34.00%48.00%36.56%41.00%40.00%54.00%43.01%47.00%Tri-train(kNN)66.00%62.00%64.71%64.00%72.00%66.00%69.90%69.00%共装袋(kNN)48.00%62.00%51.61%55.00%54.00%68.00%58.06%61.00%CST-投票(kNN)66.00%66.00%66.00%66.00%72.00%66.00%69.90%69.00%Co-Forest66.00%60.00%64.08%63.00%百分之七十60.00%66.67%65.00%民主公司66.00%62.00%64.71%64.00%72.00%68.00%70.59%百分之七十EnSL72.00%64.00%69.23%68.00%76.00%68.00%73.08%72.00%表3比率R= 10%和R= 20%4.3统计和事后分析在机器学习中,多个算法在多个数据集上的统计比较测试[22由于我们的动机源于这样一个事实,即我们有兴趣评估对假设的拒绝,即所有算法基于其分类准确性在给定水平上表现同样良好,并强调我们提出的算法与经典自标记算法之间存在显著差异,因此我们使用了非参数弗里德曼对齐排名(FAR)[15]测试。此外,Finner测试[12]作为事后程序应用,以找出哪些算法存在显著差异。表5列出了通过非参数多重比较程序进行的统计分析的信息在每个FAR测试中获得的最佳(例如最低)排名确定了事后测试的控制算法。此外,根据相应的控制算法,在α = 0时,采用Finner检验(p F)给出了调整后的p值。05重要性值得一提的是,当pF的值小于I. Livieris等人/理论计算机科学电子笔记343(2019)1931算法森比率= 30%SpeF1ACC森比率= 40%SpeF1ACC自我训练(SMO)78.00%68.00%74.29%73.00%78.00%百分之七十75.00%74.00%联合列车(SMO)50.00%百分之七十55.56%60.00%52.00%百分之七十57.14%61.00%三联列车(SMO)76.00%68.00%73.08%72.00%78.00%72.00%75.73%75.00%联合装袋(SMO)74.00%68.00%71.84%71.00%78.00%百分之七十75.00%74.00%CST-表决(SMO)78.00%68.00%74.29%73.00%78.00%百分之七十75.00%74.00%自训练(C4.5)74.00%百分之七十72.55%72.00%78.00%百分之七十75.00%74.00%共车(C4.5)58.00%54.00%56.86%56.00%58.00%60.00%58.59%59.00%三列(C4.5)74.00%66.00%71.15%百分之七十74.00%68.00%71.84%71.00%共装袋(C4.5)72.00%百分之七十71.29%71.00%78.00%72.00%75.73%75.00%CST-投票(C4.5)76.00%百分之七十73.79%73.00%76.00%百分之七十73.79%73.00%自训练(kNN)72.00%72.00%72.00%72.00%74.00%74.00%74.00%74.00%联合训练(kNN)58.00%60.00%58.59%59.00%60.00%76.00%65.22%68.00%Tri-train(kNN)72.00%66.00%69.90%69.00%74.00%66.00%71.15%百分之七十共装袋(kNN)66.00%百分之七十百分之六十七点三五68.00%72.00%百分之七十71.29%71.00%CST-投票(kNN)76.00%百分之七十73.79%73.00%78.00%72.00%75.73%75.00%Co-Forest百分之七十64.00%67.96%67.00%百分之七十66.00%68.63%68.00%民主公司74.00%68.00%71.84%71.00%76.00%68.00%73.08%72.00%EnSL78.00%68.00%75.00%74.00%百分之八十72.00%76.92%76.00%表4比率R= 30%和R= 40%时,值a。请注意,自我训练,共同训练,三训练,共同装袋和CST投票使用C 4。5作为基础学习者,因为他们表现出最好的报告性能。显然,EnSL表现出最好的整体性能,因为它优于其余的自标记算法。这是因为它通过统计呈现更好的结果来报告最高的基于概率的排名,相对于所有标记的比率。算法FAR Finner事后检验pF值零假设EnSL8.625--CST-表决17.8750.120413接受Tri-training28.0630.042806拒绝自我训练29.1880.038961拒绝联合装袋29.8750.038961拒绝民主公司34.6250.012148拒绝Co-Forest51.750.000013拒绝32I. Livieris等人/理论计算机科学电子笔记343(2019)19Co-training60.00.000004拒绝表5Friedman对齐排序(FAR)检验和Finner事后检验5结论在这项工作中,我们提出了一个新的集成自标记算法检测肺部异常的X射线,题为EnSL。该算法结合了I. Livieris等人/理论计算机科学电子笔记343(2019)1933有效的自标记算法的个体预测利用多数选择方法。出于测试目的,在胸部X射线(肺炎)数据集和CT医学图像数据集上对该算法进行了广泛评估,使用自训练、协同训练、三重训练、协同装袋和民主协同学习来构成集成。我们的数值实验表明,所提出的算法EnSL的效率和因此,我们得出结论,可靠和强大的分类模型可以通过半监督学习框架中的集成方法的适应来开发。在我们未来的工作中,我们打算进行广泛的实证实验,将所提出的EnSL与其他算法进行比较,这些算法属于不同的SSL类,如生成混合模型,转换支持向量机以及基于图的方法。此外,由于实验引用[1] D.啊哈 懒惰的学习 Dordrecht:Kluwer学术出版社,1997年。[2] J. Alam,S. Alam和A. Hossan 使用多类的多阶段肺癌检测和预测SVM分类器。在2018年计算机,通信,化学,材料和电子工程上,第1IEEE,2018年。[3] B.阿尔贝蒂娜,M.沃森角,澳-地霍尔贝克河雅罗什,S. Kirk,Y. Lee,and J. Lemmerman. 放射学数据来自癌症基因组图谱肺腺癌[TCGA-LUAD]集合。癌症影像档案,2016年。[4] J. Alca l'a-Fdez,A. Fern'andez,J. Luengo,J. Derrac,S. 加尔恰湖 S'anc hez和F. 埃雷拉龙骨数据挖掘软件工具:数据集存储库,集成算法和实验分析框架。Journal of Multiple-Valued Logic Soft Computing,17,2011。[5] A. Blum和T.米切尔将标记和未标记数据与联合训练相结合。第11届计算学习理论,第92[6] S. Candemir,S.Jaeger,K.帕拉尼亚潘Musco,R.K.Singh,Z.Xue,中国山梅花A.Karargyris,S.安塔尼,G.托马斯和C.J.麦克唐纳。使用非刚性配准的解剖图谱在胸片中进行肺部分割。IEEE医学成像学报,33:577[7] O. 你好,B。 Schéolk opf和A. 是的半超级服务和警报。 MITPress,Ca mbridge,MA,2006.[8] K.克拉克湾,澳-地Vendt,K. 放大图片作者:J. J. 摩尔,S。 菲利普斯,D。 Ma Cluttt,和M.普林格尔癌症影像档案(TCIA):维护和运营公共信息库。Journal of Digital Imaging,26(6):1045[9] Mari Antonius Cornelis Dekker和Sandro Etalle。基于审计的电子健康记录访问控制。电子笔记理论计算机科学,168:221[10] T.G.迪特里希机器学习中的包围方法。Kittler和F. Roli,editors,Multiple Classifier Systems,volume1857,pages 1Springer Berlin Heidelberg,2001.[11] S. Dua,U.R. Acharya和P. Dua。医疗保健信息学中的机器学习,第56卷。Springer,2014.[12] H.芬纳逐步下降多重检验程序中的单调性问题。美国统计协会杂志,88(423):92034I. Livieris等人/理论计算机科学电子笔记343(2019)19[13] M.F.A. Hady和F.施温克结合基于委员会的半监督学习和主动学习。Journal of Computer Science andTechnology,25(4):681[14] M. Hall,E.弗兰克,G。霍姆斯湾Pfahringer、P.威腾WEKA数据挖掘软件:更新。SIGKDD explorationsnewsletters,11:10[15] J.L. Hodges和E.L.莱曼方差分析中独立试验组合的秩次法
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功