基于深度学习的多级基于块的糖尿病视网膜病变检测

105 浏览量更新于2024-01-27 收藏 1.13MB PDF 举报

深度学习模型

眼底图像

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报使用图像块V. Deepaa，C.Sathish Kumarb，Thomas Cherianca印度科塔亚姆拉吉夫·甘地技术学院电子电气工程系b印度伊杜基政府工程学院电子通信工程系c印度恩纳库拉姆Angamaly小花医院和研究中心视网膜系阿提奇莱因福奥文章历史记录：2021年1月9日收到2021年5月19日修订2021年5月20日接受2021年5月25日网上发售保留字：糖尿病视网膜病变图像补丁Entrance浅层和密集层特征预训练CNN模型A B S T R A C T糖尿病视网膜病变（diabetic retinopathy，DR）是糖尿病患者最常见的致盲性视网膜疾病之一视网膜图像的及时筛查和分级将视力丧失的可能性降到最低。然而，人工筛选视网膜图像，检测微小病变的早期阶段的DR，是耗时的。本文提出了一种深度卷积神经网络（CNN）模型的集成，用于使用眼底图像进行DR的准确检测和分级。每个输入图像在第一阶段被分成四个补丁，并传递到预先训练的CNN模型（InceptionV3，Xception）进行训练。CNN模型的浅密集层中的相关特征被用作先验知识。浅层和密集层特征的集成有助于模型学习DR图像的重要信息。在第二阶段，基于人工神经网络的分类器是使用融合的概率向量的四个补丁。各个CNN模型的结果被组合在一起，以在第三阶段生成最终决策。这种多阶段深度学习模型的集成方法提高了糖尿病视网膜病变分级的整体分类准确性。在本文提出的五种不同的分类方案中，多级基于块的深度CNN（MPDCNN）提供了最好的分类精度，其中眼底图像的局部基于块的细节和整体细节被级联。该集成分类器具有96.2%的分类准确率和五重交叉验证。版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍如今，糖尿病及其破坏性后果是全球失明的主要原因。糖尿病性视网膜病变是糖尿病性失明的主要原因.世界卫生组织（WHO）于二零一九年十月发布的世界视力报告（二零一九年）指出，全球有22亿人患有视力障碍，其中至少10亿例可通过及时筛查预防。通常情况下，恢复已经失去的视力是不可能的。大多数患有这种疾病*通讯作者：A. P. J. Abdul Kalam技术大学，印度喀拉拉邦，特里凡得琅。电子邮件地址：deepasuru@rit.ac.in（V. Deepa）。沙特国王大学负责同行审查制作和主办：Elsevier威胁视力的疾病是没有意识到的，因为他们没有症状，直到他们经历视力丧失。因此，筛查和早期干预对于预防这些微血管并发症导致的失明至关重要。DR 大致分为两类，非增殖性 DR （ NPDR ）和增殖性 DR（PDR）。NPDR患者的早期症状包括视网膜微血管瘤（MA）、点状出血（HE）和毛细血管破裂当疾病进展时，发现血管中的微小隆起，其可能很快开始在视网膜表面中渗漏，并且该阶段被称为严重NPDR（Wu等人，2017年）。在称为PDR的晚期阶段，视网膜表面的血液渗漏导致严重的视力丧失。疾病的严重程度由病变计数及其特征来衡量。在这项研究中，我们专注于检测不同的视网膜病变，即MAs，HMs，渗出液。MA是毛细血管中的小它在视网膜表面呈现为微小的红点。根据糖尿病视网膜病变早期治疗研究（ETDRS）方案（Group等人，1985），在所提出的方法中，眼底图像被分类为正常、轻度DR、中度DR和PDR。四类眼底图像的示例如图所示。1.一、https://doi.org/10.1016/j.jksuci.2021.05.0091319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com诉迪帕角Sathish Kumar和T.Cherian沙特国王大学学报6256Fig. 1.不同类别DR图像的示例（a）未观察到异常（b）在至少一个象限中观察到MA（c）在2个或3个象限中观察到许多具有HE、渗出物的MA（d）晚期眼底成像是一种广泛接受的技术，用于基于人群的DR检测。但是，眼底图像的手动筛选是耗时的，并且它依赖于眼科医生的经验计算机辅助医学图像处理是实现快速准确诊断的大规模筛查的可靠解决方案（Wu等人， 2017年）。在文献中，有几个基于经典图像处理技术的计算机辅助诊断系统。最近，基于深度学习的CNN方法的进展吸引了许多研究人员。本工作旨在开发一种基于眼底图像的CNN模型的自动DR分级诊断系统。1.1. 相关作品最近文献中与研究相关的工作主要可以存在用于基于眼底图像中的病变的大多数经典的方法可以分为纹理和变换为基础的功能。Lazar等人在2013年报告了一种称为局部旋转横截面轮廓分析的新技术，用于使用眼底图像进行微动脉瘤检测（ Lazar 和 Hajdu ，2013 ），用于视网膜病变眼底图像分类。 Roychowdhury 等人（2014）提出了一种新的两步分层分类方法。该论文的主要贡献是特征排名，其中使用Adaboost分类器从78个特征中选择30个顶级特征进行病变分类James等人提出了利用一组可靠特征的DR严重程度自动分类。（2018年）。使用多层前馈神经网络将视网膜图像分类为正常、轻度DR、中度DR和重度DR。在2020年报道了使用眼底图像的纹理和形态信息的组合来检测DR的早期迹象（Colomer等人，2020年）。分类器，随机森林，线性SVM，RBF SVM和高斯过程是用于评估所提出的方法。在这些传统方法中，像特征提取和特征缩减这样的步骤是手动决定的。空间域中的大多数纹理特征对噪声、旋转和尺度敏感。此外，很难同时考虑眼底图像的颜色和全局信息特征。基于频率变换的特征提取技术可以提供隐藏的频域信息，并已被证明是成功的。Wang等人的视网膜血管分割的多小波核和多尺度分解在Wang等人的文章中有报道。（2013年）。变换系数对分解级别的选择非常敏感该研究提出了一个必要条件，以达到最佳的分解水平，血管增强。 Abbas等人（2017）报道了一种用于早期检测和分类的密集尺度不变特征变换的有效图像变换算法。Mukti 等人（2018）在2018年报告了另一种用于曲波变换和分层分类的自动分级系统的机器学习算法。在MESSIDOR数据库上进行了测试，准确率达到86.2%.在2020年（Gayathri等人， 2020），提出了一种基于Haralick和各向异性双树复小波变换特征的糖尿病视网膜病变二值和多值图像自动分类系统。由于GLCM-Haralick特征的维数较大，对纹理样本的大小很敏感。所提出的系统进行了评估，在三个流行的公共数据库使用随机森林分类。Deepa等人（2020）提出了一种使用加速鲁棒特征（SURF）和空间局部二进制模式的DR自动分级系统。该算法的一个主要缺点是它对旋转不稳定，并且不能正确地与照明一起工作。通过基于变换的特征提取方法，通过将大部分信息包装在少数系数中来获得图像的最佳该方法有一定的局限性，因为它需要诉迪帕角Sathish Kumar和T.Cherian沙特国王大学学报6257手动选择最佳的图像变换技术和缩小尺寸。此外，变换系数的计算通常会消耗大量的精力，并产生未使用的信息。时域方法可能无法提供详细的信息，并且频域技术无法提供高质量的性能。该技术的性能取决于参数，即分解水平和功率谱密度的变换。基于卷积神经网络的技术可以克服经典方法的许多限制。为了开发良好的泛化能力和良好的结果，深度学习模型需要大量的数据进行训练。然而，模型的训练过程是耗时且成本密集的。卷积神经网络已经在各种图像处理应用中证明了其出色的性能。2019年，Seo等人实现了分层CNN（H-CNN）（Seo和Shin，2019）用于时尚图像分类。研究结果表明，报告模型的准确性优于基础模型，验证损失轻微。Agarwal等人（2019）报告了一种通过深度学习方法使用图像补丁在乳房X线照片该方法通过三种广泛使用的CNN模型VGG-16、InceptionV 3和ResNet-50来评估质量检测。Mittal等人于2019年引入了一种用于识别心血管组织的集成方法（Mittal，2020）。11个CNN architec- tures与6000训练补丁被用来评估六个心血管类别。Sandoval等人提出了使用基于CNN的方法对美术绘画进行分类2019年新的两阶段深度学习方法（Sandoval et al.， 2019）使用预先训练的网络AlexNet、VGG-16、VGG-19、GoogLeNet和ResNet-50进行测试。三个基准艺术数据集用于评估这种新方法的分类准确率为76.14%。Wang et al.（2020）实现了一种多路径多尺度集成方法（MSME-CNN），以提高CNN模型的特征提取能力。通过对四种常用的图像识别数据集的实验，验证了该方法的优越性基于深度学习的CNN最近已被用于自动DR眼底图像的匹配分类。2016年，Harry等人提出了一种多类分类方法（Pratt等人，2016年）使用深度学习方法进行DR。在报告的工作中引入了增强技术，以增加输入图像的数量。使用基准数据集，即MNIST，CIFAR-10，CIFAR-100评估模型的性能。Wan等人报道了一种自动分类的尝试使用Kaggle平台数据集的DR（Wan等人，2018年）。在该方法中，不平衡的数据集通过增强和数据归一化技术进行补偿。Lam et al.（2018）中的方法基于CNN转移学习，使用预训练的GoogLeNet模型，该模型经过微调以提取图像特征。通过随机填充零、缩放、滚动和旋转来增强输入图像，以提高网络容量并减少过拟合。结果表明，该系统检测到所有轻度病变，灵敏度较低。2019年推出的定制CNN架构用于对DR图像进行分类byMrs. et al.（2019）.这项工作报告了一个五层自定义CNN模型，输出端有两个卷积层和三个全连接层。2020年，提出了另一种有趣的DR分类方法（Zago et al.，2020年）由Tozatto等人在基于补丁的CNN上。在该方法中，提出了滑动窗口方法和概率图分析。在Abdelmaksoud等人（2021）中，基于深度学习技术的综合多标签系统用于DR分类。线性支持向量机分类器用于评估从模型中提取的特征，准确率为95.1%。Gao等人提出了一种新的标记数据集，用于DR梯度的四类分类任务。使用深度神经网络（Gao等人，2019年）的报告。本文提出了一种改进的预训练模型用于DR分类，其分类准确率达到88.72%. Gayathri等人（2020年）提出了一种轻量级CNN模型，用于二进制和多类DR分级的更好分类性能。通过使用来自公共数据集的图像，使用五种不同的分类器对该模型进行评估。Pao等人（2020）提出了一种双通道CNN模型，该模型同时处理预处理后的输入眼底图像的灰度级和绿色级的熵图像。双通道CNN获得的性能指数ROC（接收器操作特征）曲线的AUC为0.93。近年来，基于CNN的网络结构和算法不断涌现。由于这些技术中的许多已被应用于使用眼底图像进行准确的DR分级，因此我们尝试了用于DR分级的集成多级深度卷积神经网络的新开发。1.2. 贡献所提出的算法可以总结如下。本研究的目的是探讨基于补丁的方法自动DR分级眼底图像。此外，上面提到的文献调查了具有浅密集层特征级联的深度学习模型的集合的提议。Sandoval等人（2019）和Mittal（2020）提出的技术启发我们在拟议的工作中应用基于补丁的方法和CNN模型的在第一阶段中，每个输入眼底图像被划分成块，并且块被应用于具有子层（浅-密）特征连接的CNN模型以进行有效训练。在CNN模型输出处生成的概率分数被连接并应用于基于人工神经网络（ANN）的最终，在该方法的最后阶段使用两个CNN模型所提出的方法与不同的分类方案进行评估，并与国家的最先进的技术进行比较。具体而言，我们的主要贡献如下。所采用的方法是基于基于补丁的策略，以检测多种异常和突出不同的视网膜病变。使用多级CNN模型的集成来选择输入眼底图像的相关特征。该方法利用浅层和稠密层特征的拼接来获取眼底图像的主要细节和次要细节，从而最大限度地减少了信息损失。首次将使用具有浅-密层特征级联的图像块的嵌入式多级深度卷积神经网络用于糖尿病视网膜病变的自动分级。所提出的算法的挑战是进一步分类的PDR图像的基础上的高风险的特点。高风险PDR类别可以进一步分类，以实现更准确的DR分级系统。虽然我们在目前的工作中使用了多级深度CNN技术，但更先进的深度学习方法将有助于有效的视网膜病变筛查。论文的其余部分分为四个部分。在第2节中，我们解释了所提出的方法的方法。结果和讨论见第3节。最后，论文在第四节中结束。2. 材料和方法本节描述了数据集和方法，随后介绍了DR分级拟定方法中使用的不同分类方案。诉迪帕角Sathish Kumar和T.Cherian沙特国王大学学报6258-2.1. 数据描述数字眼底照相允许对视网膜进行现场评估，快速存储，并轻松访问患者的视网膜图像。高分辨率眼底图像采集自Ernakulam小花医院视网膜科和研究中心（LFH）。将原始图像分类为正常、轻度DR、中度DR和PDR由第三作者（高级眼科医生，我们的研究顾问）手动完成。使用Zeiss FF 450 PLUS IR眼底照相机（Carl Zeiss Meditec，2020）捕获这些视网膜图像（以下称为LFH数据集）这款高端模块化眼底成像系统配有电动滤光片，操作快速简便。由于研究领域是非常数据密集型的并且需要数千个DR图像，因此BH数据集（Deepa等人，2019）也被纳入数据库。除此之外，还包括来自公共数据集的不同DR类的基准眼底图像。所收集的流行的公共数据集是糖尿病视网膜病变数据库（Kauffin等人， 2007 ）（ DIARETDB ）、视网膜结构分析（ STARE ）（Hoover）、眼裂（Zhang等人，2014）、视网膜病变在线挑战（ ROC ）（ Niemeijer 等人， 2010 ）和 Kaggle （ Kaggle 数据库，2014）。2.2. 该方法所提出的方法提出了一种基于图像块的用于DR分级的多级深度CNN模型的集成。所提出的方法的框图如图2所示。预处理阶段使输入图像能够提供比原始输入图像更相关的信息。在这项工作中，归一化和去噪作为预处理技术。提出的多阶段算法实现了三个主要阶段来执行决策支持系统的分类标准。在阶段I中，每个输入图像被划分成固定大小的块或子图像。两个预训练的CNN模型，Inception V3和Xception，在第一阶段用于训练。阶段I的输出给出了概率向量V1v4通过softmax层每个CNN模型在第二阶段，使用这些级联的概率向量训练基于ANN的分类器。各个CNN模型在阶段III中组合，以提高最终分类精度。一个标准的多类支持向量机（SVM）分类器用于分类的集成模型输出的功能。在这项研究中，Xception的浅层特征与模型的全局平均池化层相连接，以计算低级别特征。对于InceptionV3模型，密集层特征与全局平均池化层连接以计算高级特征。我们使用了两个预先训练的CNN模型的浅层密集层中的相关特征作为先验知识。该系统有七个功能单元：预处理，块提取、卷积神经网络模型、概率向量级联、基于ANN分类器的分类、集成技术和最终分类。2.2.1. 预处理输入图像通过标准化过程被标准化以获得均匀性。使用图像编辑软件ACDSee对眼底图像的非均匀照明校正来生成归一化的输入眼底图像。通过适当的因子调整归一化RGB图像的大小，以实现所需的补丁大小。2.2.2. 斑块提取每个输入图像被分成四个重叠的随机块，每个块的大小为200 x200像素。重叠块提取的目的是最大限度地减少在初始阶段的信息损失。2.2.3. 卷积神经网络CNN是一种基于深度学习理论的高级学习算法（Szegedy et al.，2015年）。迁移学习是一种深度学习技术，用于训练CNN，其中其权重不是从头开始初始化的。权重是从另一个CNN导入的，该CNN是在更大的数据集上训练的，即Imagenet、CIFAR和MNIST。由于计算要求较少，因此在所提出的方法中使用预训练的CNN模型。在所提出的工作中，最后三个层，即预训练结构中的模型的全连接层、softmax层和输出层，被替换为当前特定于问题的补丁分类层。该模型使用最流行的基准数据集ImageNet（Krizhevsky等人，2012年）。CNN模型的超参数是隐藏神经元的数量、学习率、批量大小和最大历元数。对于眼底图像分类，在这项工作中选择了两个预训练的网络，即InceptionV3和Xception（Chollet，2017）。InceptionV3：谷歌在2015年推出了Inception模型（Szegedy etal.， 2016年）。初始版本被命名为InceptionV1，通过改变各种连接或参数来改进架构通过添加批归一化和因子分解，生成第三次迭代，其被命名为InceptionV3（Szegedy等人，2016年，48层。该模型的基本构建块是inception模块，其中有几个版本可用。三种初始模块，5 x初始模块A，4 x初始模块B和2 x初始模块C，被合并以允许更有效的计算和更深的网络。在InceptionV3架构中，使用有效的网格大小缩减来缩减特征图，而不是传统的最大池化。与VGG-16和ResNet-50相比，它在图像分类任务中表现良好该方法中使用的模型InceptionV3由五个密集层（FC1，FC2，FC3，FC4，FC5）组成，每个层后面是一个批处理归一化（BN）层和丢弃层。放下-外层用于减少过拟合，其丢失率为0.85、0.70、0.67、0.50和0.30。使用随机梯度下降（SGD）与批量大小64和SGD优化技术与0.05的学习率更新的权重。所有训练对在每个时期之间进行洗牌。所有密集层都使用ReLU激活函数，除了最后一层，它使用softmax激活函数。原始模型的最后一层是全局平均池化层，用于特征尺寸缩减。Xception：Xception代表extreme-Inception，它是Inception架构的更强版本尽管Xcep- tion架构具有与Inception相同数量的参数，但更有效地使用模型参数可以提高 Xception 模型的性能。在Xception模型中，初始模块被替换为依赖可分离卷积，其中36个卷积层被结构化为14个模块。Xception模型（Chollet，2017）在ImageNet上进行了预训练，共有71层，它表现出比InceptionV3更好的性能在Xception模型架构中，5个密集层（FC1、FC2、FC3、FC4、FC5）及其神经元（1024、256、128、64和32）用于DR分级。使用批归一化和丢弃层，丢弃率为0.8、0.7、0.65、0.45和0.33，以减少过度拟合。Adagrad优化器（Lydia和Francis，2019）的学习率为0.01。为了减少特征大小，在Xception模型的最后一层使用与传统的CNN 不同，低级和高级特征（浅密集层）分别与Xception和Incep-tionV 3模型输出融合。浅-密子层特征级联提供了具有输入图像的粗略和精细细节的更好的输出。浅层和致密层特征分别取自预训练的Xception和InceptionV3模型。补丁中生成的补丁S1-S4诉迪帕角Sathish Kumar和T.Cherian沙特国王大学学报6259ð¼Þ ð¼Þ的情况。的情况。的情况。的情况。的情况。的情况。图二.提出的用于DR分级的基于多阶段补丁的深度CNN（MPDCNN）的工作流程图。提取步骤进一步应用于CNN模型以用于中间块分类。CNN模型的softmax层输出发出描述0到1范围内的类置信概率得分的向量在CNN输出中生成的向量输出Vi;j由针对给定图像i的每个补丁j估计的类概率Si;j;k组成，如下所示。Vi;j ^^^其中，i是所分析的输入图像的索引R，j是补丁编号J一...... P，k是类的索引K1：：Q，Q是类的数量，在本研究中Q = 4。2.2.4. 概率向量在前一单元中生成的概率向量Vi;j在该步骤中，输出块概率向量被级联成单个图像向量，如Mi1/2Si11;Si21;. . . SiP1.. . ：;Si1Q;Si2Q。 . . ：SiPQ]2向量概率Mi进一步作为输入应用于第二级分类器。2.2.5. ANN分类器融合的概率向量Mi被传递到第二阶段分类器，其产生所提出的研究的中间输出。在该阶段中使用的不同分类器是ANN、Adaboost、SVM和随机森林（Gayathri等人，2020年）。不同分类器的分类准确度见表6第3.3.1节。在该方法中，ANN分类器（Zhang等人，2018年）表现良好，分类精度良好。多层感知器（MLP），一个典型的前馈人工神经网络的例子，被用作中间分类器在这项研究中。MLP最吸引人的特点是它能够学习最少三层节点，即输入，隐藏和输出层。MLP在非线性操作中将输入特征映射到输出（Gayathri等人，2020年）。学习基本上基于在训练模式中呈现给系统的示例。在培训阶段，网络尝试修改设计参数，即连接诉迪帕角Sathish Kumar和T.Cherian沙特国王大学学报6260权重和偏差。训练中的权重调整通过反向传播进行。反向传播（BP）算法试图达到最小误差点的梯度下降法的基础上，误差校正学习规则。隐层神经元的数目、激活函数和学习率是通过微调选择的设计参数。所提出的工作获得的最佳输出具有500个隐藏层神经元，具有ReLU激活函数和0.009的学习率可以注意到，阶段I和阶段II独立训练。第一阶段在图像块上训练。第二阶段中的分类器在来自阶段I输出的概率向量上训练。2.2.6. 集成方法Enhancement方法比单个模型提供更好的预测，因为它结合了多个模型。文献中的几种众所周知的集成方法包括多数表决、堆叠、随机森林、提升和装袋（Yazdizadeh等人，2020年）。通过堆叠的集合是一种方法，其中通过一组单独模型的组合预测来预测新模型。堆叠的思想将各个模型的输出组合在一起并让另一种算法，称为元学习器，进行最终预测（Ju等人，2018年）。用于神经网络的最常见的集成方法之一是多数表决技术。多数投票的最终预测等于分类器预测最频繁的类别。换句话说，该方法对来自所有个体学习器的预测标签进行计数，并选择具有最大投票数的标签作为最终预测。由于多数投票只使用预测的标签，因此会发生信息丢失，并且对单个网络的输出不太敏感。我们使用堆叠和多数投票来结合CNN模型的预测，观察到通过堆叠的系综表现良好。可能可以观察到，集成方法提高了所提出的系统的整体性能。2.2.7. 集成分类器包围特征被传递到分类器（Zhang等人，2018），为测试集提供最终的分类标签。分类器SVM（Hur等人，2001）、人工神经网络、Adaboost、随机森林作为最终分类器。在这项工作中选择多类SVM作为集成分类器，因为它们在图像处理应用中的显著性能（Rumpf等人， 2010年）。2.3. 分类方案在此方法中，五个不同的分类方案进行了评估和分析。方案1和2代表简单的单级分类技术。方案3是两阶段分类法。方案4和5实现了所提出的三阶段分类技术的不同版本。本研究采用的分类方法如下。在方案4和5中解释了所提出的方法2.3.1. 方案1：使用图像的在该方案中，使用单级分类。预处理的输入图像被传递到预训练的微调CNN模型。在基线方案中，输入图像不被分割成补丁。使用不同的CNN 模型，即 DenseNet-201 ， MobileNetV 2 ， ResNet-50 ，InceptionV 3和Xception来评估方案1中输入图像的分类准确性。输出来自每个模型的softmax层。第3节讨论了每个模型的分类依据。2.3.2. 方案2：离散贴片方案2也是单阶段分类方案，然而，每个输入图像被划分为大小为200 x200.由于这种补丁提取方法，训练数据集变得比基线方案中使用的数据集大四倍。为每个图像块提供单独的类标签，因此实现单独的块分类。每个CNN模型的软最大层为补丁分类提供最终的分类输出。2.3.3. 方案3：使用多数表决和堆叠的概率向量融合这是一个两阶段的分类方案，其中每个输入图像首先被划分为方案2中的补丁。补丁被应用于CNN模型的输入以进行训练。在得到输入图像的各个块的概率向量之后，通过不同的特征融合方法来组装或连接这些向量（Sandoval等人，2019年）的报告。我们已经研究了广泛使用的融合方法，包括多数表决和级联。在这种方法中，级联比多数表决执行得更好。融合输出使用不同的分类器，人工神经网络，Adaboost，支持向量机，和随机森林。最终分类输出计算为整个测试集图像的平均值。2.3.4. 方案4：使用图像块的三阶段分类所提出的方案4有三个主要的分类阶段：补丁提取，概率向量拼接，和合奏阶段。每个输入图像由四个200 X 200像素的随机补丁表示预训练模型的输出特征与浅密集层特征连接以改善中间块分类输出。第一阶段的输出生成补丁的独立概率向量融合的概率向量被传递到第二级分类器。最后，在集成阶段，两个特征集的个人模型堆叠和应用到集成分类器。不同的分类器，即SVM ，人工神经网络，Adaboost，和随机森林，被用于的crackulation- tion。基于块的分析为分类提供关于眼底图像的局部信息。2.3.5. 方案5：提出了使用块和整个图像在该方案中，除了将整个图像添加到系统之外，过程与方案4中相同第五个补丁。特征向量的长度随着补丁概率与完整图像概率向量的级联而变得更长。在这里，整个图像也可以被认为是用于分类的第五块。在该方案中，基于块的分析和整体分析的综合效果实现了五重交叉验证。该方案是模拟与不同数量的补丁，并观察分类精度。在下文中，我们将所提出的方案5命名为多级基于补丁的深度CNN（MPDCNN）。3. 结果和讨论为了确定该方法的有效性，必须使用各种绩效衡量标准对绩效进行评估。2290彩色图像. jpg格式与8位每通道用于训练和评估所提出的算法。输入图像的数量和描述如表1所示。诉迪帕角Sathish Kumar和T.Cherian沙特国王大学学报6261×××-××表1数据集描述。类名描述图像数量0健康5751轻度DR5752中度DR5703PDR570归一化和去噪作为预处理步骤，以提高输入图像的质量。归一化的RGB图像被调整为指定的像素大小。在2290个图像中，20%用于测试，剩余的用于训练和验证（Yamashita等人， 2018年）。每个输入图像由大小为200 x 200像素的四个重叠块表示生成的训练图像块和测试图像块的数量分别为7328和1832。3.1. CNN模型使用不同的 CNN 架构 InceptionV 3 ， Xception ， ResNet-50 ，MobileNetV 2和DenseNet-201评估所提出的方案。在本研究中，InceptionV3和Xception模型在DR分级方面优于其他模型。这些CNN模型在1000个类别的ImageNet数据集上进行了预训练，并被证明非常出色（Deng等人，2009年）。这些模型的最后三层被替换，并用于将学习技术从自然图像转移到数字化眼底图像。此外，修改后的网络的权重进行微调，学习DR分级的分类作为一个新的任务。预训练的CNN模型的性能取决于微调的超参数，如学习率，最大epoch数，批量大小和动量，这些参数如下所示。表2中对于这项工作中CNN模型的训练，我们选择批量大小为64，动量为0.9，优化器为SGD还有阿达格拉德模型的学习率对于Incep-tionV 3设置为0.05，对于Xception设置为0.01。研究中采用了不同的参数值，并选择了最佳的参数值。Colaboratory（Colab），Mr. （2018）用于实施拟议工作。Colab是一个完全在云端运行的免费笔记本环境。它提供计算环境，即中央处理单元（CPU）、图形处理单元（GPU）和张量处理单元（TPU）。为了实现所提出的工作，使用具有25 GB RAM的GPU环境3.2. 浅密层特征在该方法中，我们使用了一种策略，其中两个CNN模型的选定子层特征被平坦化并与模型的全局平均池化层相关联。将组合特征应用于预训练网络的全连接层。Xception的浅层捕获眼底图像的低级特征。此外，InceptionV3的密集层捕获高级特征，以提高特征多样性并提供更好的结果。该子层特征融合表2增强眼底图像的全局和局部特征，从而提高CNN模型的性能在本研究中，将 Xception 模型输出的模块 8 作为浅层特征，并从 4 xInception模块B中获取密集层特征在模型上应用并评估了浅密层特征，性能如表3所示。每个CNN模型的浅层和深层的特征分析与特征图如图所示。3.第三章。对于大小为1 x 200的输入补丁，InceptionV3模块输出的fea- ture map为10 10 192。密集特征取自InceptionV3模型的5 Inception模块。Xception模型的特征图大小为13 13728。子层特征取自模型的第8个初始模块由于这种子层特征融合，数据集中的粗类（PDR）和细类（轻度）以良好的准确性进行分类。3.3. 绩效评价在该方法中，每个预处理的输入图像由四个重叠的补丁表示，并应用于两个预训练的模型。CNN模型的softmax层在阶段I中生成各个补丁的概率得分V1V4在阶段II中，这些概率向量被级联，并且融合的向量Mi被传递到基于ANN的分类器InceptionV3和Xception模型在阶段II产生的个体分类准确率分别为86.3%和87.5%最终，ANN分类器的输出相结合，以产生更好的预测使用合奏技术。集成与堆叠的实现，和功能被传递到多类SVM分类器。建立了五重交叉验证，其中训练和测试重复五次。从所有五次折叠中获得的准确度的平均值被称为总体分类准确度。方案4中的两个转移学习CNN模型的集合实现了95%的总体分类准确度。在MPDCNN中，整个图像被额外添加为第五块。通过五重交叉验证，MPDCNN表现良好，准确率为96.2%。因此，所提出的MPDCNN提供了所有方案1至5中最高的分类精度3.3.1. 评估分类办法所提出的方法提出了五种不同的分类方案的DR分级。每个方案的详细信息见第2.3节。方案1：在方案1中，实现了五个不同CNN模型的单阶段分类。各种模型的分类精度计算和列表在表4中。InceptionV3和Xception模型表现良好，具有良好的分类准确性。方案2：在方案2中，预处理的输入图像被提取为大小为200 X 200的四个块。一个单阶段的补丁分类方法的实施和测试。方案2的结果示于表5中。从表中可以看出，InceptionV3和Xception模型的性能优于其他模型。表3不同浅密层模式的分类精度CNN超参数超参数InceptionV3Xception学习率0.050.01历元100100批量6464势头0.90.9模型模块分类准确率（%）InceptionV34 x Inception82.2InceptionV32 x Inception80.6InceptionV35 x Inception86.4Xception模块486.1Xception模块1187.3Xception模块890.2诉迪帕角Sathish Kumar和T.Cherian沙特国王大学学报6262图三. InceptionV3和Xception模型的特征图。表4方案1中不同CNN模型的分类精度模型层数架构分类准确率（%）ResNet50（Veit等人，（ 2016年）50残余块83.5MobileNetV2（Michele等人， 2019年度）53瓶颈残留阻滞81.8DenseNet201（Wang等人， 2019年度）201多密集块82.5InceptionV3（Szegedy等人，（2016年）48Inception模块84.7Xception（Chollet，2017）71Inception模块85.3表5方案2中不同CNN模型的分类精度模型准确度（%）ResNet5080.2MobileNetV283.1DenseNet20181.7InceptionV385.4Xception86.3这两个CNN模型的训练和验证损失如图4所示。损失函数是CNN模型的一个训练过程，它给出了关于网络学习的方向和速度的想法。可以注意到，损失值随着时期而减小。Xception模型的收敛速度优于InceptionV3。方案3：方案3是两阶段分类方法。方案3中用于概率向量融合的两种融合技术是级联和多数表决。使用堆叠的概率向量级联提供了更好的分类精度，结果如表6所示。方案4和MPDCNN：所提出的方案，方案4和MPDCNN具有三个分类阶段。除了以前的计划，最后一个集成阶段，以提高最终分类器的分类性能。来自各个CNN模型的输出特征被传递到集成阶段，最终的分类精度来自集成分类器。所提出的方案4的模拟结果列于表7中。可以推断，方案4中单个CNN模型的分类准确率分别仅为86.3%和87.5%。为了提高分类精度，见图4。CNN模型的每个时期的训练和验证损失。诉迪帕角Sathish Kumar和T.Cherian沙特国王大学学报6263表6方案3分类精度。CNN模型ANN（%）SVM（%）Adaboost（%）随机森林（%）使用投票的87.284.784.081.2使用堆叠90.387.186.083.6表7方案4分类精度。CNN模型SVM（%）ANN（%）Adaboost（%）随机森林（%）InceptionV386.386.386.386.3Xception87.587.587.587.5采用多数表决方式90.488.780.181.3使用堆叠进行包围（面片= 2）91.387.382.183.5使用堆叠进行包围（Patch = 4）95.090.185.284.8表8方案MPDCNN的分类精度。CNN模型SVM（%）ANN（%）Adaboost（%）随机森林（%）InceptionV386.386.386.386.3Xception87.587.587.587.5采用多数表决方式91.388.382.182.1使用堆叠进行包围（面片= 2）92.589.580.582.7使用堆叠进行包围（Patch = 4）96.290.285.384.9表9不同计划的业绩计量。业绩计量方案1方案2方案3方案4MPDCNN精度85.086.090.095.096.2TPR85.086.290.195.096.2TNR85.086.290.195.096.2PPV85.386.089.095.096.1齐85.086.190.095.296.2F-score85.286.089.095.096.1MCR18.918.312.78.66.5实现了投票和堆叠。不同的分类器被应用于调查的分类精度。可以观察到，SVM分类器输出与其他选择的分类器相比更好。在方案4中，使用堆叠的集成方法在四个补丁的情况下表现良好，达到95%表8给出了所提出的MPDCNN方案的仿真结果。随着四个输入补丁，整个图像也被添加为所提出的MPDCNN中的第五个补丁。该算法是模拟与不同数量的补丁，观察到，它提供了最好的分类精度与四个图像补丁。值得注意的是，在四个受欢迎的分类器，SVM提供更好的分类精度。提出的MPDCNN与集成技术堆叠的分类准确率为96.2%，与四个补丁。通过五重交叉验证，MPDCNN在这项工作中的准确率为96.2%。显然，所有方案的最佳

下载后可阅读完整内容，剩余1页未读，立即下载