没有合适的资源?快使用搜索试试~ 我知道了~
© 2013年。出版社:Elsevier B.V.由美国应用科学研究所负责选择和/或同行评审可在www.sciencedirect.com在线获取ScienceDirectAASRI Procedia 4(2013)275 - 2812013年AASRI智能系统与控制宫颈癌前病变分类的重要特征的确定A. Aguileraa*,M.帕尔马河马塔-托莱多ba分析、建模和数据处理中心,CAMYTD,FACYT,Universidad de Carabobo,Valencia,委内瑞拉b美国弗吉尼亚州哈里森堡詹姆斯麦迪逊大学计算机科学系摘要特征选择是在自动学习中使用的过程,包括选择数据库的特征的最佳子集以降低其维数,去除噪声并提高学习算法的性能。也就是说,提高学习速度,精度预测(通过命中率衡量)和所获得结果的可理解性。本文的目的是应用这种技术的降维处理图像特征提取,通过纹理分析经处理的图像通过阴道镜获得的常规妇科检查考试从实用的角度来看,作者试图从处理后的图像中提取模式,对现有的宫颈病变进行分类,以达到诊断目的。使用数据挖掘的监督分类技术对图像处理的结果属性进行了分析。© 2013作者。由Elsevier B. V.在CC BY-NC-ND许可下开放获取。由美国应用科学研究所负责选择和/或同行评审关键词:特征选择;分类;宫颈病变1.介绍子宫颈癌是一种常见的癌症,始于子宫颈的iningcell最初这细胞结构的异常改变被称为细胞发育异常,并被分类为低度或高度的宫颈上皮内病变在后一种情况下,这些异常细胞可以成为癌症,如果没有* 通讯作者:安娜·阿奎莱拉。联系电话:+1-540-2461564 ;传真:+1-540-568-6211。电子邮件地址:aaguilef@uc.edu.ve2212-6716 © 2013作者由Elsevier B. V.在CC BY-NC-ND许可下开放获取。美国应用科学研究所负责的选择和/或同行评审doi:10.1016/j.aasri.2013.10.041276A. Aguilera等人/ AASRI Procedia 4(2013)275图像及时治疗。一般来说,没有与宫颈癌相关的症状,因此妇女必须经常进行检查,以预防和尽早发现可能的病变。脱落细胞学检查是早期诊断本病最常用的方法。还有其他方法,如HPV DNA检测,阴道镜检查,醋酸目视检查(AAVI)和卢戈碘目视检查(LIVI)[3]。阴道镜检查是一种医疗程序,其中阴道镜相机用于视觉检查子宫颈并捕获子宫颈的数字图像。在这项检查中,通常使用醋酸或卢戈碘来获得子宫颈的对比,从而帮助诊断任何病变。虽然有不同的原因,为什么宫颈癌可以起源,HPV(人乳头瘤病毒)感染是最常见的之一。病变分类使用由美国国家癌症研究所(NCA)在1988年建立的Bethesda系统进行。该系统将形态学癌前病变分为两类:低度鳞状上皮内病变(LGSIL)和高度上皮内病变(HGSIL)。前一类包括最简单的改变,反应性炎性病变,提示HPV感染或尖锐湿疣挖空细胞。这一类别还包括下一个进化水平,宫颈上皮内瘤样病变(CIN)I或轻度异型增生。HGSIL包括组织学病变CIN II和CIN III或中度和重度异型增生,分别[8](图1)。健康生病低度病变高度病变Fig. 1. Bethesda系统VPH NIC NIC II NIC近年来,从计算的角度来看,数字图像处理及其随后的诊断分析取得了重大进展。与此同时,数据挖掘和机器学习等技术可以提供一组方法,用于检测大量数据的行为模式。为数据挖掘处理准备数据库的一种这样的技术是特征选择。特征选择用于为特定的数据挖掘任务识别最佳的特征子集。虽然可以使用的属性的最小数量是有争议的,例如,在分类任务中,我们可以假设属性越多,区分能力越高。然而,一些学习算法的实验表明,情况并不总是如此,因为正如已经检测到的那样,一些实验具有高运行时间,其他实验具有非常高的冗余或不相关属性的发生率,同时显示出其分类能力的下降[11]。不同的实验表明,特征选择降低了分类器的错误率。这是因为通过这个过程,我们试图根据以下两个标准选择属性的最小子集:首先,命中率不会显着下降,相反,它是可取的,它增加。第二,当考虑所有属性时,结果类的分布尽可能与原始类的分布相似在这A. Aguilera等人/ AASRI Procedia 4(2013)275277在这篇论文中,作者试图比较不同的特征选择方法,基于学习算法的准确性,选择最佳的特征子集,为宫颈癌前病变的诊断提供有效的图像分类。1.1. 以前的作品当前的文献调查显示了与特征选择方法相关的几项工作,重点是搜索技术,它们在分类,比较,聚类,引入新方法及其组合中的应用,如[4],[5]所示。[6],[8]。在其他医学领域,Martin等人的工作[1]将WEKA [2]中可用的特征选择方法应用于包含6至11岁儿童营养状况变量的数据库。该研究的目的是确定哪种方法确定对营养评估贡献最大的因素。在另一项研究中,Blakrishnan [3]试图使用对称不确定性属性评估器和基于快速相关性的过滤器找到Pima印第安人糖尿病数据集的最佳特征子集。Guyon等人[7]研究了利用基于递归特征消除的支持向量机方法从DNA微阵列上记录的基因表达数据的广泛模式中选择一小部分基因的问题。刚才提到的研究有一个共同的目标,即比较属性选择方法的性能与学习算法获得的结果,从而确定哪种方法显着改善了不同情况下的结果,具有多样性的信息,以及高或低维度。2. 数据源描述在这项研究中,作者使用了来自马拉凯(委内瑞拉)Maria Teresa del Toro医院的宫颈数字图像数据库。以前,这些数据被用于EVA:癌症前病变的识别系统[9]。这组图像也被[10]用于使用人工神经网络进行癌前宫颈视频阴道镜图像检测的研究。研究中的数据是通过对每个患者的宫颈拍摄两张图像来获得的。第一张照片是在应用醋酸后拍摄的,第二张是在应用卢戈碘后拍摄的。医生将每张图像分为以下三个类别之一:a)健康:指未显示任何损伤或改变的宫颈图像; b)BG:指LGSIL图像; c)AG:指HGSIL图像。字母BG和AG在西班牙语中分别代表低年级和高年级;我们将在本文的其余部分继续使用这些字母组合。图像的特征是基于一阶和二阶的统计纹理分析。第一阶基于每个平面的直方图,第二阶基于共生矩阵。在RGB(红色、绿色和蓝色)平面中分析所有图像(图2)。为了获得更高的学习算法的准确性,以以下两种方式处理图像:最初,使用健康,BG和AG类别对其进行分类(图3)。其次,BG和AG图像被分组为单个患病类别。在将图像按这些类别分组后,作者运行学习算法将图像区分为两组:健康和生病。然后在患病类别上重新运行算法,以区分AG和BG图像。3. 特征选择算法表1显示了使用数据挖掘工具Weka 3.6版[2]进行特征选择的算法。计算属性子集的算法用字母s来区分。类似地,评估全部属性集的算法用字母t来区分。将s-算法与278A. Aguilera等人/ AASRI Procedia 4(2013)275搜索方法,如表2所示,除了仅使用t算法的秩搜索方法之外。图2.宫颈图像特征选择分类器图3.图像处理的三个类别的歧视表1.选择特征算法算法描述% sCfsSubsetEval(CFS相关性基于特征选择)% s一致性子集评估将与类相关性高、相关性低的属性子集它们之间当实体被投影到属性的训练子集中时,根据类值的一致性水平来评估属性子集的值。任何子集的一致性都不能小于整个属性tChiSquaredAttributeEval通过计算类tGainRatioAttributeEval它是基于信息论tInfoGainAttributeEval查找提供有关类的详细信息的属性集tLatentSemanticAnalysis执行潜在语义分析并转换数据tOneRAttributeEval使用分类器计算属性的值OneRt PrincipalComponents执行主成分分析并转换数据tReliefFAttributeEval基于最近邻技术为每个属性分配权重。每个属性的权重根据其区分类tSVMAttributeEval使用分类器支持向量机(SVM)计算属性的值属性是通过SVMtSymmetricalUncertt AttributeEval使用关于类的对称不确定性计算属性的值IB(m,n,3)IG(m,n,2)IR(m,n,1)健康BgAGA. Aguilera等人/ AASRI Procedia 4(2013)275279BFTree表2.搜索方法检索方法BestFirst使用增量贪婪策略从空集向前搜索,并使用回溯遗传搜索使用简单遗传算法BestFirst搜索方法的线性前向选择在属性子集的空间中执行分散搜索从一个重要的人口开始ScatterSearchV1当结果大于给定的阈值或没有进一步的结果时,改进是可能根据属性的质量,基于其各自的评估,返回属性的有序列表。4. 结果和结论本研究是在两组宫颈图像上进行的。一组图像使用醋酸,另一组图像使用卢戈碘。从这些图像中提取了63个纹理特征;每层21个,红色,绿色和蓝色(R,G和B)。用不同的分类器测试由特征选择方法生成的每个子集(表3中的场景)。表3示出了针对在三个原始类别(健康、BG和AG)上区分的每种类型的图像获得的正确答案的最高百分比。表3.通过应用于图像的每种选择方法实现的最佳结果卢戈Lugol的碘图像与醋酸的场景图像分类器%分类器%S1无特征选择数据NearBalancedNDrandomForestRotationForest LMT71,93基于S2相关性的最佳优先搜索特征选择算法RotationForest LADTree 80,70RandomSubSpaceBFTree63,16基于S3相关性的遗传搜索特征OrdinalClassClassifierRandomForestRotationForest LMT 71,93基于S4相关性的线性前向选择搜索策略MultiBoostAB BFTree 75,44装饰BFTree 66,67S5基于相关性的特征选择与分散搜索V1搜索策略装饰RandomTree82,46RandomSubSpace63,16S6卡方特征评估装饰RandomTree 77,19 ClassBalancedND FT 64,91S7基于一致性的特征选择,采用最佳优先搜索策略基于S8一致性的遗传搜索特征S9基于一致性的线性前向选择搜索策略S10基于一致性的特征选择与分散搜索V1搜索策略RandomForest 77,19装饰FT 64,91装饰J48 75,44 AdaBoostM1 FT 68,42装饰J48 78,95装饰J48graft 70,18RotationForest随机树80,70装饰FT 64,91S11增益比特征评估MultiClassClassifierRandomForestMultiBoostABDecisionStump63,16S12信息增益特性评估RotationForest LADTree 77,19MultiBoostABDecisionStump63,16S13潜在语义分析数据NearBalancedND决策树桩63,16 ClassBalancedND FT 56,14S14基于OneR的特征评估RandomSubSpace J48 75,44AdaBoostM1 LMT 70,18 S15主成分分析AdaBoostM1REPTree 73,68 MultiBoostAB FT 68,42 S16ReliefF特征评估装饰RandomForest 77,19装饰LMT70,18 S17基于SVM的特征评估装饰J48 78,95AdaBoostM1 LMT 68,42S18对称不确定特征评估装饰RandomTree 80,70MultiBoostABDecisionStump63,16280A. Aguilera等人/ AASRI Procedia 4(2013)275对于Lugol碘图像,使用S5场景获得了最佳分类精度,该场景使用来自决策树RandomTree的元分类器Decorate正确分类了82.46%的图像。在乙酸图像组中,观察到使用特征选择方法对分类过程没有益处。这是因为使用S1获得了正确分类实例的最高百分比(71.93%)。在后一种情况下,没有使用特征选择方法,在分类过程中考虑了所有属性。从考虑的所有图像中,我们可以观察到,基于正确分类的实例的分类,具有卢戈碘的图像集表4示出了通过用两种类型的图像区分健康和患病类别而获得的结果。对于Lugol碘图像,最高评级实例百分比为89.47%。这是由元分类器AdaBoostM1使用S4从REPTree决策树中获得的。对于乙酸图像,使用J 48决策树中的Decorate元分类器获得的最高分类率为84.21%.我们还可以观察到,当AG和BG类被分组为单个病态类时,正确分类实例的百分比显着增加.表4. .通过每种选择方法健康BG-AG里约风景区Lugol'sIodine的照片%含醋酸的图像%Lugol's Iodine的照片%含醋酸的图像%S1SMO 84,44 AdaBoostM1 FT 82,22装饰RandomTreeRotationForestREPTree80,70S2装袋LADTreeMultiClassClassifier随机森林RotationForestJ48graftRotationForestDecisionStump80,70S3ClassBalancedND LADTreeS4装袋LADTree装饰J48graft 82,22RotationForestLADTreeRotationForest J48AdaBoostM1REPTreeRotationForestREPTreeRotationForestDecisionStump80,7080,70S5装袋LADTree84,44装饰DecisionStumpMultiBoostAB决策树桩RotationForestDecisionStump80,70S6 AdaBoostM1-BFTreeS7MultiBoostABREPTree86,67随机子空间J4884,44装饰DecisionStumpAdaBoostM1 FTMultiBoostABREPTree装袋J48嫁接87,72RotationForestDecisionStump80,7080,70S8装袋J48 86,67RotationForestDecisionStumpMultiBoostABBFTreeRotationForestREPTree80,70S9MultiBoostABREPTreeS10MultiBoostABREPTreeAdaBoostM1-REPTree84,44装饰DecisionStump84.44RandomSubSpaceLADTreeMultiLayerPerceptronRotationForestDecisionStumpRotationForestDecisionStump80,7080,70S11AdaBoostM1-BFTree80,00RotationForest随机树MultiBoostABREPTree80,70S12AdaBoostM1-BFTree86,67装袋randomForest82,22RotationForest随机树MultiBoostABREPTree80,70S13装饰LADTreeBFTree 71,11 AdaBoostM1 J48 78,95AdaBoostM1FT78,95S14随机子空间e J4886,67多层感知器对AdaBoostM1REPTree85,96 ClassBalancedND随机树80,70S15随机子空间e BFTreeRotationForest随机森林AdaBoostM1LADTree装饰J48 84.21S16随机子空间e J4886,67多层感知器对AdaBoostM1LADTreeAdaBoostM1FT78,95S17SMO 84,44 AdaBoostM1 FT 82,22AdaBoostM1LADTree装饰RandomTree84.21S18AdaBoostM1-BFTreeAdaBoostM1 FT 87,72MultiBoostAB REPTree80,70A. Aguilera等人/ AASRI Procedia 4(2013)275281两种类型图像的患病类实验产生了最好的结果,即LADTree决策树为Lugol碘图像提供了86.67%的S3正确分类实例,而元分类器AdaBoostM1和REPTree决策树为乙酸图像提供了89.47%的S9。表5总结了在每个实验、类和图像组中提供最佳性能的场景和分类器。通过用Lugols碘分析宫颈图像,结合患病类别,并在每种情况下仅使用两个类别进行判别分类,获得了最佳结果。目前,数据分析现实生活中的应用程序清楚地表明,需要操作的属性数量减少。在这项研究中进行的实验表明,特征选择是一个过程,提供了显着的好处,因为所获得的模型更容易理解,并执行更好的学习算法比当使用完整的数据集。表5。为每组图像和类获得的最佳性能摘要。类图像集合场景分类器精度绝对错误健康卢戈S5装饰-RandomTree82.4561%61.2198%BG-AG用乙酸S1RotationForest -LMT71.9298%62.7400%健康卢戈S4AdaBoostM1 -REPTree89.4737%45.9349%生病用乙酸S15装饰-J 4884.2105%121.6727%BG卢戈S6AdaBoostM1 -BFTree86.6667%40.4499%AG用乙酸S9AdaBoostM1 -REPTree84.4444%62.9891%5. 确认作者感谢美国詹姆斯·麦迪逊大学富布赖特项目和委内瑞拉卡拉波波大学CDCH的资助。引用[1] 马丁河拉莫斯河格劳河加西亚河Aplicación de MEtodos de selección de atributos para determinar factores relevantly en laevaluación nutricional de los niños. GacetaMédicaEspirituana9,2007.[2] Weka 3 -使用开源机器学习软件进行数据挖掘。www.cs.waikato.ac.nz/ml/weka/[3] Balakrishnan,S.Narayanaswamy,R.在II型糖尿病数据库中使用FCBF进行特征选择。2009年第七届信息科学技术管理年会(CISTM)[4] 严文,Goebel,K. F.局部放电诊断的特征选择。第12届SPIE:结构和生物系统的健康监测和智能非破坏性评估IV,pp。166[5] 郑惠南 Zhang, Y.天文学中高维数据的特征选择。空间研究进展,2008年。[6] 作者声明:A.文本分类的特征选择度量的广泛实证研究。Journal of Machine Learning Research,3。pp. 1289[7] 居永岛Weston,J.,Barnhill,S. Vapnik,V.使用支持向量机进行癌症分类的基因选择。Journal of Machine LearningResearch,46(1-3)。pp. 389[8] Mejía-Lavalle,M.,Solis,J. F.,García,F. J.在一个适用于cóncava电力生产方案的数据库中选择属性。In 4Jornadas Iberoamericanas de Ingeniería del Software e Ingeniería del Conocimiento,2004.[9] Guerrero,J.,Pérez,Y. EVA:子宫癌前病变康复系统。PREGRADO论文,卡拉沃沃大学,2005年[10] 阿奎莱拉A. Guerrero,J. Palma,M.A.,Rodríguez,J.使用人工神经网络从视频阴道镜图像中检测宫颈癌前病变。第四届印度人工智能国际会议(IICAI),2009年。[11] 鲁伊斯河Heurísticas de selección de atributos para datos de dumberalidad.博士论文,塞维利亚大学,2006年。[12] Langley,P.机器学习中相关特征的选择。在AAAI秋季研讨会的相关性,页。140-144. AAAI Press,1994.[13] 约翰,G.,科哈维河普夫莱格河不相关的特征和子集选择问题。121比129 摩根·考夫曼1994年。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- WebLogic集群配置与管理实战指南
- AIX5.3上安装Weblogic 9.2详细步骤
- 面向对象编程模拟试题详解与解析
- Flex+FMS2.0中文教程:开发流媒体应用的实践指南
- PID调节深入解析:从入门到精通
- 数字水印技术:保护版权的新防线
- 8位数码管显示24小时制数字电子钟程序设计
- Mhdd免费版详细使用教程:硬盘检测与坏道屏蔽
- 操作系统期末复习指南:进程、线程与系统调用详解
- Cognos8性能优化指南:软件参数与报表设计调优
- Cognos8开发入门:从Transformer到ReportStudio
- Cisco 6509交换机配置全面指南
- C#入门:XML基础教程与实例解析
- Matlab振动分析详解:从单自由度到6自由度模型
- Eclipse JDT中的ASTParser详解与核心类介绍
- Java程序员必备资源网站大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功