利用机器学习检测乳腺癌的新方法

40 浏览量更新于2023-12-10 收藏 850KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

⃝可在www.sciencedirect.com在线获取ScienceDirectICTExpress 6（2020）320www.elsevier.com/locate/icte利用机器学习检测乳腺癌作者：Anji Reddy Vakaa，Badal Sonia，Sudheer Reddy K.b，a印度锡尔查尔国家技术学院CSE系b印度海得拉巴研究员接收日期：2020年2月26日;接收日期：2020年4月5日;接受日期：2020年4月22日2020年5月7日网上发售摘要在过去的几年里，印度已经见证了30%的乳腺癌病例，而且很可能会增加。在印度，每两分钟就有一名妇女被诊断出患有乳腺癌，每九分钟就有一名妇女死亡。早期发现和诊断可以挽救生命的癌症患者。本文提出了一种新的方法来检测乳腺癌，采用机器学习技术。作者在一个数据集上进行了实验分析，以评估性能。与现有方法相比，所提出的方法产生了高度准确和高效的结果c2020年韩国通信与信息科学研究所（KICS）。出版社：Elsevier B.V.这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词：机器学习;分类;乳腺癌;深度学习1. 介绍乳腺癌（BC）是在乳腺细胞中激活的恶性肿瘤。肿瘤有可能扩散到身体的其他部位[1，2]。BC是一种普遍性疾病，通常在25岁以下的50.随着印度BC病例数量的潜在增加，其影响令人担忧。在过去的五年中，BC患者的存活率在美国约为90%，而在印度，该数字报告约为60% [3]。BC对印度2020年的预测表明，这一数字将高达200万[4]。专家医生已经确定了荷尔蒙，生活方式和环境因素，可能会增加个人超过5%-6%的BC患者与家族中经历的基因突变有关。肥胖，年龄增长，绝经后激素失衡是导致BC的其他因素因此，BC没有预防机制，但早期发现可以显着改善结果。此外，这也可以大大降低治疗成本。不过，有时候出现癌症症状是不寻常的，所以∗ 通讯作者。电子邮件地址：sudheercse@gmail.com（Sudheer Reddy K.）。同行评审由韩国通信和信息科学研究所（KICS）负责https://doi.org/10.1016/j.icte.2020.04.009早期检测是困难的。在肿瘤进展之前，使用乳腺X线照片和自我乳腺检查来检测任何早期异常是必不可少的[5]。本文的主要目的是提出一种新的方法来检测BC。本文提出了一个详细的研究现有的癌症检测模型，并提出了高度准确和有效的结果。本文分为四个部分。文献和现有的作品在第2节。在第3节中，详细阐述了拟议的方法。结果和讨论见第4节。与其他模型相比，所提出的结果被证明是准确和有效的2. 文献综述本节介绍文献综述。参考多个来源的相关文献进行乳腺癌检测分析。此外，作者审查了来自地区和国家癌症登记处的各种数据集。作者采用了最流行的BC检测方法，即：朴素贝叶斯分类器、支持向量机（SVM）分类器、双聚类和Ada boost技术、R-CNN（卷积神经网络）分类器、双向递归神经网络（HA-BiRNN）[6本节介绍了这些方法。SVM分类器技术[6]是RFE和SVM的融合。RFE是一种通过选择2405-9595/2020韩国通信和信息科学研究所（KICS）。出版社：Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。Anji Reddy Vaka，B.Soni和Sudheer Reddy K./ICT Express 6（2020）320321表1最流行的BC检测方法的性能分析方法精度精度召回朴素贝叶斯分类器95.6195.6593.61SVM分类器95.6195.6593.61双聚类和Ada Boost技术95.7595.7296.26RCNN分类器91.391.389.3双向递归神经网络（HA-BiRNN）82.5080.0979.03数据集特征以递归方式依赖于最小特征值。因此，通过在所有迭代中移除不适当的特征（最低权重特征）来操作SVM-RFE。AdaBoost是一种著名的集成技术，它擅长通过组合多个弱分类器来提高分类精度。面向双聚类的分类器还可以与强大的集成分类器集成，以获得更好的泛化性能。在训练过程中，分配不同的权重，并根据“加权多数投票”做出决策回归神经网络是一类在序列维上具有深度的神经网络，在时间序列建模中得到了广泛的应用。与传统的NN相比，RNN能够处理数据点，其中每一步的激活都是基于前一步的。CNN利用图像像素之间的空间数据[3]，因此，它们依赖于“离散卷积”。因此，假定灰度图像HA-BiRNN [9]包括两层编码器，分别用于句子编码器和单词编码器与此同时，也考虑了词级注意力和词级注意力。各种BC检测方法的比较见表1。列出了准确度、精确度和召回率的结果值2.1. 现有方法的局限性朴素贝叶斯分类器在训练数据不被表示时产生不良结果[10]。支持向量机分类器不适合大数据集，也不适用于高计算机视觉应用。当数据不平衡时，双聚类和Ada boost技术会导致错误分类。RCNN需要更多的时间来训练网络。 HA-BiRNN可能会对BUS图像产生错误的分数[9]。由于这些限制，提出的方法被引入。3. 方法然而，表1中列出的现有方法产生有限质量的图像，并且还具有潜在的性能问题。因此，引入了一种新的方法--带支持值的深度神经网络（DNNS）来产生更好的结果。更高质量的图像，并固定其他性能参数。作者提出了一种新的算法或伪代码以及数学公式来评估效率和性能。表2数据集的摘要。放大率良性恶性训练数据测试数据40X3419181471402100X84711491432344200X81118641549473400X58114981999339总25805429645115583.1. 数据集一个注释良好的数据集是产生一个新的和强大的方法来检测BC的基本要求。由于样本的不可用性和患者人口统计信息的保密性，数据集的收集非常困难。在这种情况下，注释良好的大规模数据集取自M。G肿瘤医院印度维沙卡帕特南塔尔研究所。该数据集包括超过683名患者的8009个不同放大倍数的组织病理学图像样本。数据集总结见表2。给定的数据集具有一组组织病理学图像。这些图像分为良性和恶性肿瘤。将预处理后的良恶性图像应用到该方法中，实现了对BC病例的有效分类。此外，与现有方法相比，所提出的方法产生了高度准确和高效的数据扩充是用来扩大数据集，以减轻有限的数据大小的问题。自然图像是以自下而上的方法进行分析的。大多数医学图像是通过自上而下的方法解决的。据认为，应用于自然图像的增强技术将不适用于医学图像。因此，在数据集上选择数据增强方法是复杂的。由于组织病理学图像具有旋转，因此在训练和测试数据上都采用了旋转技术。在90°、180°和270°下进行旋转。放大改变组织学图像的大小，可以提高处理质量。由于组织学图像有许多组织，在低放大倍数下分析有点复杂。对于系统来说，从具有不同放大水平的所述图像中学习不同的特征以进行鉴别诊断是具有挑战性的[5]。在所提出的系统实现中，多个训练阶段与放大因子的先前知识一起进行，如表2所示。提出的DNNS技术的主要目标是提高效率和增强图像质量，322Anji Reddy Vaka，B.Soni和Sudheer Reddy K./ICT Express 6（2020）320C2∥∥δ−=D（）− −=×=CΣ Σi=1j= 1IjJXi jxi−d k−更好的预测和诊断。在所提出的DNNS方法中，用于计算直方图值、S形函数和组织S形函数的数学方程已经被修改和更新。剩余的方程类似于标准BC检测算法[9]。拟议的DNNS方法分为三个阶段。在预处理阶段，对输入细胞学图像进行预处理以去除噪声这一过程是由使用有效的过滤技术。在第二阶段，步骤3：将histo-sigmoid值代入模糊聚类算法。模糊聚类包含元素的有限集合x={x1，x2，.. . xn}和d={d1，d2，. . . dc}。U= u ij∈ [0，1]，其中I =（1，2，. . . n）和j =（1，2，. . .c）、N DF=ux-d∞，1≤c∞（4）从提取的图像中提取肿瘤。这是通过采用基于Histo-sigmoid的模糊聚类来完成的。其中，ij=1（五）∑c（−d）m21预处理是图像处理中最重要的环节。考虑一下，CCDD是乳腺细胞学图像数据库，步骤-4：通过应用等式中的模糊聚类算法来计算组织-S形函数（六）、1<$D ∈ {D 1，D 2，D 3，. . . D n}其中n是图像的数量，D是向量函数。首先，使用有效的高斯滤波技术对输入细胞学图像进行预处理以去除噪声渠道是用来扩大辉煌和复杂性，正如改变它的表面，色调和装饰的形象。高斯信道的特征在于，uij=H+ck=1xi− djxi−dk）m21（六）G（x， y）1exp2πδD2X2y22δD2（1）其中（x，y）是图像的当前像素3.3. 特征提取从预处理后的图像中提取熵、几何和纹理特征。熵（E）是用于描述输入图像纹理的随机性估计[11]。形状特征对于区分正常细胞和恶性细胞的特征起着重要作用。在文本特征中，每个图片被划分为3.4. 组织-S型模糊聚类直方图是数值型数据分布的精确表示，模糊聚类是一种将一个信息分成两个类的方法。Histo-Sigmoid模糊聚类可以在以下步骤中进一步实验，并通过使用所提出的DNNS的伪代码如下所示。所提出的伪代码的关键功能是使支持值能够改善输入图像的范围。通过使用（7）中的等式来计算基于支持值的归一化。各种数学公式。步骤1：计算SN支持值Y-Y最小值Y最大值−Y最小值（七）使用Eq. （二）、KH其中H是直方图函数（2）I=1步骤-2：S形函数可以通过使用等式来计算。（三）、1δ=1+et（3）其中，Ymin和Ymax是图像Y中的最小值和最大值，其中SN是基于支持值的归一化图像。4. 结果和讨论实验结果完善了所提出的DNNS方法和分类与∑从预处理的图像中提取熵、几何和纹理特征。第三阶段分割乳房我3.2. 预处理k=1（Anji Reddy Vaka，B.Soni和Sudheer Reddy K./ICT Express 6（2020）320323表3业绩计量。业绩计量精度分割图像1图像2图像3图像4建议（DNNS）0.9670.9570.9550.929FCM0.8930.9230.9440.843阈值0.830.7880.7750.834Fig. 1. 试验结果本节分析了现有的SVM、朴素贝叶斯和随机森林。DNNS分类在MATLAB的操作平台上实现。实验结果如图1所示。图1（a）示出了用于分割过程的样本输入图像。图1（b）描绘了经滤波的图像。图图1（c）描绘了分割的细胞学图像。图1（d）示出了所提出的方法的分割图像。在分割过程中计算了准确率、灵敏度、精确度、召回率、F-测度、秩和等性能指标，并与已有的模糊C-均值（FCM）和阈值进行了比较。建议方法与现有FCM和阈值的比较结果列于表3。表4最流行的BC检测方法的性能分析图二. 结果比较（（c）中提议的方法与现有方法（a）和（b））。图三. 比较结果。业绩计量以图表形式列于图11。二、DNNS方法与现有方法的性能比较见表4。图3显示了拟议和现有的比较结果。5. 结论作者提出了一种新的检测乳腺癌的方法DNNS。与其他方法不同，该方法基于深度神经网络的支持值。为了满足更好的性能、效率和图像质量，采用了归一化过程。实验结果表明，该方法比现有方法具有更好的识别效果.它是确保所提出的算法是有利的，在最新的医疗系统的性能，效率和图像质量是至关重要的方法精度精度召回朴素贝叶斯分类器95.6195.6593.61SVM分类器95.6195.6593.61双聚类和Ada Boost技术95.7595.7296.26RCNN分类器91.391.389.3双向递归神经网络（HA-BiRNN）82.5080.0979.03支持值深度神经网络（Deep Neural Network with Support Value，DNNS）97.2197.997.01324Anji Reddy Vaka，B.Soni和Sudheer Reddy K./ICT Express 6（2020）320CRediT作者贡献声明安吉·雷迪·瓦卡：数据管理，写作-原始草案，软件，验证。 Badal Soni ：监督，可视化，调查。 SudheerReddy K.：概念化，方法论，写作-评论编辑.竞合利益作者声明，他们没有已知的可能影响本文所报告工作致谢作者对印度安得拉邦维萨卡帕特南圣雄甘地癌症医院和研究所的院长、高级医生和行政人员表示深切的赞赏和衷心的感谢，感谢他们在分享数据集方面的不懈支持和帮助，如图所示。二、引用[1] //www. breastcncer. 或g/symptoms/understand_bc/what_is_bc。[2] Y.S.男性乳腺癌：临床表现，诊断，治疗，实验。Oncol. 35（4）（2013）303[3] 我的朋友们： // 我的朋友们： / 我的朋友们： / Biospectrumindia.COM/VIEWS/21/15300/ST AA HTML.[4] S. Malvia，S.A. Bagadi，U.S. Dubey，S. Saxena，印度妇女乳腺癌流行病学，亚太地区。《临床肿瘤杂志》13（4）（2017）289-295。[5] Shallu，Rajesh Mehra，乳腺癌组织学图像分类：从头开始训练还是迁移学习？ICT Express 4（2018）247-254.[6] V. Anji Reddy，Badal Soni，乳腺癌识别和诊断技术，在：智能决策的机器学习，Springer，2020年。[7] 潘乔，张媛媛，陈德华，徐光伟，基于特征的卷积网格神经网络用于乳腺癌分类，IEEE，2017，p. 31号。[8] SanaUllah Khan，Naveed Islam，Zahoor Jan，Ikram Ud Din，JoelJ.P.C. Rodrigues，一种基于深度学习的框架，用于使用转移学习检测和分类乳腺癌，在：模式识别快报，Elsevier，2019年。[9] 黄庆华，陈永东，刘龙忠，陶大成，李雪龙，关于结合双聚类挖掘和adaboost进行乳腺肿瘤分类，IEEE Trans. Knowl. Data Eng. 32（4）（2020）728-738。[10] Shweta Kharya，SunitaSoni，加权朴素贝叶斯分类器：乳腺癌检测的预测模型，Int.J.Comput.申请133（9）（2016）32[11] R.D.H. 我是戴维 Devi ， Outlier detection algorithm combinedwithdecision tree classifier for early diagnosis of breast cancer，Int. J.Adv. 工程师技术/卷98.第93期第二期第93期（2016年）

下载后可阅读完整内容，剩余1页未读，立即下载