深度学习技术检测糖尿病视网膜病变：综述与分析

85 浏览量更新于2024-01-06 收藏 1.22MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

医学信息学解锁20（2020）100377通过深度学习技术检测糖尿病视网膜病变：综述韦丹湖 Alyoubi *，Wafaa M. Shalash，Maysoon F.阿布凯尔沙特阿拉伯吉达阿卜杜勒·阿齐兹国王大学信息技术系A R T I C L EI N FO索引术语：计算机辅助诊断深度学习糖尿病视网膜病变的早期症状A B S T R A C T糖尿病视网膜病变（Diabetic Retinopathy，DR）是糖尿病常见的并发症，它会导致视网膜病变，影响视力。如果不及早发现，可能导致失明。不幸的是，DR不是一个可逆的过程，治疗只能维持视力。DR的早期发现和治疗可以显著降低视力丧失的风险。与计算机辅助诊断系统不同，眼科医生对DR视网膜眼底图像的手动诊断过程耗时、费力、成本高，并且容易误诊。最近，深度学习已经成为最常用的技术之一，在许多领域都取得了更好的性能，特别是在医学图像分析和分类方面。卷积神经网络作为一种深度学习方法在医学图像分析中得到了更广泛的应用，并且非常有效。本文回顾和分析了使用深度学习技术进行DR彩色眼底图像检测和分类的最新方法。此外，DR的彩色眼底视网膜可用的数据集进行了审查。还讨论了需要更多调查的差异挑战性问题1. 介绍在医疗保健领域，疾病的治疗在早期发现时更有效。糖尿病是一种因缺乏胰岛素而导致血液中葡萄糖含量增加的疾病[1]。它影响着全球4.25亿成年人[2]。糖尿病影响视网膜、心脏、神经和肾脏[1，2]。糖尿病视网膜病变（DR）是糖尿病的一种并发症，其导致视网膜血管肿胀并渗漏液体和血液[3]。如果DR处于晚期，可能导致视力丧失。在世界范围内， DR导致2.6%的失明[4]。糖尿病患者病程越长，DR发生的可能性越大。视网膜定期筛查对于糖尿病患者早期诊断和治疗DR以避免失明风险至关重要[5]。DR通过视网膜图像上不同类型病变的出现来检测。这些病变为微动脉瘤（MA）、出血（HM）、软和硬渗出物（EX）[1，6，7]。微动脉瘤（MA）是DR的最早体征，由于血管壁的脆弱性，它在视网膜上表现为小红圆点。尺寸小于125μ m，边缘锐利。 Michael等人[8]将MA分为六种类型，如图1所示。采用AOSLO反射率和常规荧光成像技术观察MA的类型。● 出血（HM）在视网膜上表现为较大的斑点，其大小大于125μ m，边缘不规则。有两种类型的HM，这是火焰（表面HM）和污点（更深的HM），如图所示。二、硬性渗出物在视网膜上表现为亮黄色斑点，由血浆渗漏引起。它们有尖锐的边缘，可以在视网膜的外层找到。软渗出物（也称为棉絮）在视网膜上表现为由神经纤维肿胀引起的白点。形状为椭圆形或圆形。红色病变为MA和HM，而明亮病变为软质和硬质渗出物（EX）。根据这些病变的存在，DR分为五个阶段，即无DR、轻度DR、中度DR、重度DR和增殖性DR，在表1中进行了简要描述。DR阶段图像的样本见图1。3.第三章。DR检测的自动化方法节省成本和时间，并且比手动诊断更有效[10]。人工诊断容易误诊，并且比自动方法需要更多的努力。本文回顾了最近使用深度学习来检测和分类DR的DR自动化方法。目前的工作涵盖了33篇使用深度学习技术对DR图像进行分类的论文。本文的组织如下：第2节简要介绍了深度学习技术，而第3节介绍了各种眼底视网膜数据集。第4节介绍了业绩衡量标准，第5节审查了* 通讯作者。电子邮件地址：walyoubi0016@stu.kau.edu.sa（W.L.Alyoubi）。https://doi.org/10.1016/j.imu.2020.100377接收日期：2020年4月5日;接收日期：2020年5月30日;接受日期：2020年6月18日在线预订2020年2352-9148/©2020的自行发表通过Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表医学信息学期刊主页：http://www.elsevier.com/locate/imu��W.L. Alyoubi等人医学信息学解锁20（2020）1003772表1DR水平及其相关病变[13]。DR严重度级别病变无DR无病变轻度非增殖性DR中度非增殖性DR重度非增殖性DR放射性DR仅MA超过MA但低于严重DR以下任何一种：● 在4个象限中的每个象限中超过20个视网膜内HM● 在200个象限● 第1象限视网膜内明显微血管异常● 无增殖性DR以下一项或多项：玻璃体/视网膜前HM、新生血管形成Fig. 1. 不同类型的MA [8]。图二. 不同类型的HM [9]。不同的图像预处理方法用于眼底图像。第6节描述了不同的DR自动分类方法，而讨论部分在第7节中介绍。总结见第8节。2. 深度学习深度学习（DL）是机器学习技术的一个分支，其涉及用于非监督特征学习以及用于分类模式的非线性处理阶段的分层[11]。DL是一种计算机辅助医疗诊断方法[12]。深度学习在医学图像分析中的应用包括图像的分类、分割、检测、检索和配准。近年来，深度学习被广泛应用于DR检测和分类。它可以成功地学习输入数据的特征，即使在集成了许多异构数据源的情况下[14]。有许多基于DL的方法，如受限玻尔兹曼机，卷积神经网络（CNN），自动编码器和稀疏编码[15]。这些方法的性能随着训练数据数量的增加而增加[16]，这是因为与机器学习方法不同，学习特征的增加此外，DL方法不需要手工制作的特征提取。表2总结了DL和机器学习方法之间的差异。CNN在医学图像分析中的应用比其他方法更广泛[17]，并且非常有效[15]。CNN架构中有三个主要层，分别是卷积层（CONV）、池化层和全连接层（FC）。CNN的层数、大小和过滤器的数量根据作者的设想而有所不同。CNN架构中的每一层都扮演着特定的角色。在CONV层中，不同的过滤器卷积图像以提取特征。通常，池化层跟随在CONV层之后，以减少特征映射的维度。池化有很多策略，但最常用的是平均池化和最大池化[15]。FC层是描述整个输入图像的紧凑特征SoftMax激活函数是最常用的分类函数。ImageNet数据集上有不同的预训练CNN架构，如AlexNet [19]，Inception-v3 [20]和ResNet [21]。一些研究，如[22，23]，转移学习这些预训练的体系结构来加速训练，而其他研究则从头开始构建自己的预训练模型的迁移学习策略包括微调最后一层FC或微调多层或训练预训练模型的所有层通常，用于使用DL首先收集数据集并应用所需的预处理来改善和增强图像。然后，将其馈送到DL方法以提取特征并对图像进行分类，如图所示。四、这些步骤将在以下各节中进行说明3. Retina数据集有许多公开可用的视网膜数据集来检测DRW.L. Alyoubi等人医学信息学解锁20（2020）1003773��并检测血管。这些数据集通常用于训练，验证和测试系统，并将系统的性能与其他系统进行比较。眼底彩色图像和光学相干断层扫描（OCT）是视网膜成像的类型。OCT图像是使用低相干光拍摄的视网膜的二维和三维图像，并且它们提供关于视网膜结构和厚度的大量信息，而眼底图像是使用反射光拍摄的视网膜的二维图像[24]。OCT视网膜图像在过去几年中已经引入。存在多种常用的公开可用的眼底图像数据集。眼底图像数据集如下：DIARETDB 1[25]：它包含89个公开可用的视网膜眼底图像，大小为1500 × 1152像素，在50度视场（FOV）下采集。它包括84幅DR图像和5幅由4位医学专家注释的正常图像。Kaggle[26]：它包含88，702张不同分辨率的高分辨率图像，从433289PIX el到5184 3456PIX el，从不同的相机收集。所有图像分为5个DR阶段。只有训练图像地面真相是公开的。Kaggle包含许多质量差和标签不正确的图像[23，27]。E-ophtha[28] ：这个公开可用的数据集包括 E-ophtha EX 和 E-ophtha MA。E-ophtha EX包括47个EX图像和35个正常图像。E-ophtha MA包含148个MA图像和233个正常图像。DDR[23]：该公开数据集包含在45度FOV下采集的13，673张眼底图像，注释为5个DR阶段。数据集中有757张图像注释为DR病变。DRIVE[29]：这个公开可用的数据集用于血管分割。它包含在45度FOV下采集的40张图像。图像的大小为565 584像素。其中，有七个轻度DR图像，其余包括正常视网膜的图像。HRF[30]：这些公开提供的图像用于血管分割。它包含45个图像，大小为3504 2336像素。DR图像15幅，健康图像15幅，青光眼图像15幅.Messidor[31]：该公开数据集包含在45度FOV下采集的1200张眼底彩色图像，注释为四个DR阶段。Messidor-2[31]：该公开数据集包含在45度FOV下采集的1748幅表2DL和机器学习方法之间的区别DL机器学习手工特征提取不需要需训练数据所需的大数据不需要大数据图四、使用DL 对DR图像进行分类的过程。STARE[32]：这个公开可用的数据集用于血管分割。它包含在35度FOV下采集的20幅图像。图像大小为700605像素。其中有10个正常图像。CHASE DB 1[33]：该公开数据集用于血管分割。它包含28张图像，大小为1280 960像素，在30度FOV下采集印度糖尿病视网膜病变图像数据集（IDRiD）[34]：该公开数据集包含516张在50度FOV下采集的眼底图像，注释为5个DR阶段。ROC[35]：它包含在45度FOV处获取的100个公开可用的视网膜图像。它的大小从768 576到1389 1383像素不等。对图像进行注释以检测MA。只有训练场的真理是可用的。DR2[36]：它包含435个公开可用的视网膜图像，857 569像素。它为图像提供参考注释。有98个图像被分级为参考。[37]的研究使用DIARETDB 1数据集检测DR病变。[38]的研究使用DIARETDB 1和E-ophtha检测红色病变，而[39]的研究使用这些数据集检测MA。在参考文献[40]中，DIA-RETDB 1用于检测EX。Kaggle数据集在[22，37，41DRIVE、HRF、STARE和图三. DR分期：（a）正常视网膜（b）轻度DR，（c）中度DR，（d）重度DR，（e）增生性DR，（f）黄斑水肿[18]。��W.L. Alyoubi等人医学信息学解锁20（2020）1003774在[46]的工作中使用CHASE DB 1来分割血管，而在参考文献[47]中使用DRIVE数据集。第5节讨论了这些研究的结果。表3比较了这些数据集。大多数研究在将数据集用于DL方法之前对其进行了处理。接下来的部分将讨论性能度量和预处理方法。4. 业绩计量有许多应用于DL方法的性能测量来测量其分类性能。DL中常用的测量是准确性、灵敏度、特异性和ROC曲线下面积（AUC）。灵敏度是分类为异常的异常图像的百分比，特异性是分类为正常的正常图像的百分比[65]。AUC是通过绘制灵敏度对特异性而创建的图。准确率是指图像被正确分类的百分比。以下是每个测量的公式。特异性¼TN/（TNFP）（1）灵敏度¼TP/（TPFN）（2）准确度<$TN TP/（TNTP <$FNFP）（3）真阳性（TP）是被分类为疾病的疾病图像的数量。真阴性（TN）是被分类为正常的正常图像的数量，而假阳性（FP）是被分类为疾病的正常图像的数量。假阴性（FN）是被分类为正常的疾病图像的数量。研究中使用的性能测量百分比，涉及当前工作，如图五、5. I MAGE 预处理图像预处理是去除图像中的噪声、增强图像特征和保证图像一致性的必要步骤[43]。下面的段落讨论了最近在研究中使用的最常见的预处理技术表3DR数据集的详细信息。图五. 研究中使用的绩效指标的百分比许多研究人员将图像的大小调整为固定的分辨率，以适合所使用的网络，如参考文献中所做的。[37、41]。应用裁剪图像以去除图像的额外区域，而数据归一化用于将图像归一化为类似的分布，如参考文献[45]所示。在一些作品中，如[38]，由于其高对比度，仅提取图像的绿色通道[46]，图像被转换为灰度，如在Ref.[43].噪声去除方法包括中值滤波器、高斯滤波器和非局部均值去噪方法，例如分别在[38，43，45]的作品当某些图像类别不平衡或增加数据集大小时，执行数据增强技术，例如参考文献10。[38、45]。数据增强技术包括平移、旋转、剪切、翻转、对比度缩放和重新缩放。使用形态学方法（如参考文献[39]）进行对比度增强。在[40]的研究中，Canny边缘方法被用于特征提取集图像图像决议DRIVE40 images 33images 7图像––20E-ophthaIn e-ophtha EX 82图片and e-ophtha MA 381图片35图片在e-ophtha EX.233 images in e-ophtha MA–HRF45 images 15images 15图像––––3504 �圆周率DDR13，673图像6266图像630图像4713图片913图片6835图像4105图像不同的图像分辨率Messidor1200images决议梅西多-21748图像决议STARE20 images 10images圆周率CHASEDB128张图片圆周率IDRiD516图片图像103图像4288 �2848圆周率ROC100图像决议DR 2435图片圆周率数据集数量的图像正常图像轻度DR中度和重度非增殖性DR放射性DR培训测试集图像尺寸DiaretDB189张图片27张图片7图像28张图片27张图片28张图片61张图片1500 �1152圆周率Kaggle88，702张图片––––35,12653,576不同图像W.L. Alyoubi等人医学信息学解锁20（2020）1003775��在对图像进行预处理之后，图像就可以用作DL的输入，这将在下一节中进行解释6. 糖尿病视网膜病变筛查系统一些研究已经尝试使用DL自动化DR病变检测和分类这些方法可以根据所使用的分类方法分类表4总结了这些方法。6.1. 二元分类本节总结了仅将DR数据集分为两类的研究。K. Xu等人。[41]使用CNN将Kaggle [26]数据集的图像自动分类为正常图像或DR图像。他们使用了数据集中的1000张图像。在将图像馈送到CNN之前，进行数据扩充和扩展到224*224*3。数据增强用于通过应用几种变换来增加数据集图像，例如重新缩放、旋转、翻转、剪切和平移。CNN架构包括八个CONV层，四个最大池化层和两个FC层。在CNN的最后一层应用SoftMax函数进行分类。该方法的准确度为94.5%。在G. Quellec等人[37]，通过训练三个CNN将每个图像分类为可恢复的DR（指中度或以上）或不可恢复的DR（无DR或轻度）。这些图像来自三个数据集，即Kaggle（88，702图像）[26]，DiaretDB 1（89图像）[25]和私人E-ophtha（107，799图像）[28]。在预处理阶段，图像被调整大小，裁剪为448 448像素，归一化，并侵蚀FOV的5%。使用大高斯滤波器，并应用增强数据。使用的CNN架构是预训练的AlexNet [19]和o_O解决方案的两个网络[48]。通过CNN检测MA、HM、软EX和硬EX。该研究的ROC曲线下面积在Kaggle中为0.954，在E-ophtha中为0.949。M. T. Esfahan等人。[22]在他们的研究中使用了一种已知的CNN，即ResNet34 [49]，将Kaggle数据集[26]的DR图像分类为正常或DR图像。ResNet34是ImageNet数据库上一个可用的预训练CNN架构。他们应用了一套图像预处理技术来提高图像质量。图像预处理包括高斯滤波、加权加法和图像归一化。图像数量为35000个图像，其大小为512512像素。他们报告的准确性为85%，灵敏度为86%。R. Pires等人。[50]建立了他们自己的CNN架构来确定图像是否是可扩展的DR。拟议的CNN包含16层，类似于预训练的VGG-16 [51]和o_O团队[48]。在训练过程中使用了双重交叉验证和多图像分辨率。512 512图像输入的CNN是在较小图像分辨率上由训练的CNN初始化权重后训练的。将drop-out和L2正则化技术应用于CNN以减少过度拟合。CNN是在Kaggle数据集上训练的[26]并通过Messidor-2 [31]和DR 2数据集进行了测试使用数据增强来平衡训练数据集的类别。在测试Messidor-2时，工作达到了98.2%的ROC曲线下面积对H. Jiang等人。[52]集成了三个预训练的CNN模型，即Inception V3[20]，Inception-Resnet-V2 [53]和Resnet 152 [21]，以将自己的数据集分类为可扩展DR或不可扩展DR。在CNN训练中，Adam优化器用于更新其权重。使用Adaboost算法对这些模型进行集成。30，244张图像的数据集被调整为520 520像素，在被馈送到CNN之前进行了增强和增强。准确度为88.21%，曲线下面积（AUC）为0.946。Y. Liu等人。[54]建立了一个加权路径CNN（WP-CNN）来检测可重构的DR图像。他们收集了6万多张图片，可扩展或不可扩展的DR，并多次增强它们以平衡类。这些图像被调整为299 299像素，并在被馈送到CNN之前进行了归一化。WP-CNN包括许多CONV层，这些层在不同的加权路径中具有不同的内核大小，通过取平均值进行合并。105层的WP-CNN比预训练的ResNet [21]，SeNet [55]和DenseNet具有更好的准确性[56] 架构，其数据集为94.23%，STARE数据集为90.84%。G. Zago等人[57]使用两个CNN模型基于增强的65*65补丁使用的CNN是预训练的VGG16 [51]和自定义CNN，它包含五个CONV，五个最大轮询层和一个FC层。这些模型在DIARETDB 1 [25]数据集上进行了训练，并在DDR [23]，IDRiD [34]，Messidor-2，Messidor [58]，Kaggle [26]和DIARETDB 0 [59]数据集上进行了测试，以将斑块分类为红色病变或非红色病变。之后，基于测试图像的病变概率图对这项工作的结果实现了Messidor数据集的最佳灵敏度0.94和AUC 0.912不幸的是，将DR图像分为两类的研究人员没有考虑DR的五个阶段。DR分期对于确定DR的确切分期，采用合适的手术方法治疗视网膜病变，防止视网膜病变的恶化和致盲具有重要意义。6.2. 多级分类本节回顾了将DR数据集分为许多类的研究。V. Gulshan等人的工作[60]介绍了一种使用CNN模型检测DR和糖尿病黄斑水肿（DME）的方法。他们使用Messidor-2 [31]和eyepacs-1数据集（分别包含1748张图像和9963张图像）来测试模型。这些图像首先被标准化，直径被调整为299像素宽，然后将它们馈送到CNN。他们使用预训练的Inception-v3[20]架构训练了10个CNN，其中包含不同数量的图像，最终结果由线性平均函数计算。将图像分为可分级的糖尿病黄斑水肿、中度或更严重的DR、重度或更严重的DR或完全可分级。他们在两个数据集中获得了93%的特异性，在Messidor-2和eyepacs-1数据集中分别获得了96.1%和97.5%的灵敏度;然而，他们没有明确检测到非DR或5个DR阶段的图像。M. Abramoff等人[61]将CNN与IDX-DR设备集成，检测和分类DR图像。他们将数据增强应用于Messidor-2数据集，其中包含1748张图像。使用随机森林分类器整合他们的各种CNN，以检测DR病变以及视网膜正常解剖结构。将影像分为无DR、可诊断DR和威胁视力DR，其曲线下面积为0.980，敏感性为96.8%，特异性为87.0%。不幸的是，他们将轻度DR阶段的图像视为无DR，并且未考虑五个DR阶段H. Pratt等人。[42]提出了一种基于CNN的方法，将来自Kaggle数据集[26]的图像分类为五个DR阶段。在预处理阶段，对图像进行了颜色归一化和像素级为512512的处理.他们的自定义CNN架构包含10个CONV层，8个最大池化层和3个FC层。使用Soft-Max函数作为80，000个测试图像的分类器。在CNN中使用L2正则化和dropout方法来减少过拟合。其特异性为95%，准确性为75%，敏感性为30%。不幸的是，CNN不能检测图像中的病变，只有一个数据集被用来评估CNN。S. Dutta等人[43]检测并将来自Kaggle数据集[26]的DR图像分类为五个DR阶段。他们使用2000张图像研究了三种网络的性能，即反向传播神经网络（BNN），深度神经网络（DNN）和CNN。将图像大小调整为300 × 300像素并转换为灰度，并从RGB图像中提取统计特征。此外，应用了一组滤波器，即边缘检测，中值滤波，W.L. Alyoubi等人医学信息学解锁20（2020）1003776表4用于DR检测/分类的方法。参考文献DL方法病变数据集（数据集大小）性能指标EyePACS-1（9963）百分之九十七点五百分之九十三点四[61] CNN是梅西多-2（1748）0.980- 96.8% 87.0%[42] CNN No Kaggle（80，000）[41] CNN No Kaggle（1000）[37]CNN yes Kaggle（88，702），DiaretDB1(89)和E-ophtha（107，799）。0.954–0.949–[38]CNN红仅病变DIARETDB1（89），E-Ophtha（381）和中国（1200）CPM¼ 0.4874，用于DIARETDB1而CPM为 0.3683（对于眼角膜炎）0.48830.3680[22] CNN-ResNet 34没有Kaggle（35000）[43]DNN，CNN（VGGNET架构），BNN No Kaggle（2000）DNN<$86.3%CNN<$78.3%[44]CNN（InceptionNet V3，AlexNet和VGG16）无Kaggle（166）37.43%，VGG16<$50.03%，InceptionNetV3 <$63.23%（二十八）0.98550.96530.77790.9864[63] CNN（AlexNet，VggNet16，custom CNN）无MESSIDOR（1200）[65] CNN（ResNet50，InceptionV3，InceptionResNetV2，Xception和DenseNets）美国有线电视新闻网[50]没有他们自己的数据集（13767）[68]第68话[52] CNN（Inception V3，Inception-Resnet-V2和Resnet152）[54] CNN（WP-CNN，ResNet，SeNet和DenseNet）中国（131）0.951百分之九十点八四[74] CNN（改进的LeNet，U-net）仅红色病变直径DB 1（89）CPM<$0.4823 48.71%[57] CNN（VGG16，自定义CNN）仅红色病变直径DB1（89）、直径DB0（130）、Kaggle（15，919），Messidor（1200），Messidor-2（874），IDRiD（103）和DDR（4105）-0.7860.7640.912–0.8180.848–0.8210.9110.94–0.8410.891[23] CNN（GoogLeNet，ResNet-18，DenseNet-121，VGG-16和SE-BN-Inception）无DDR（13，673）[69]美国有线电视新闻网（修改后的Alexnet）没有梅西多（1190）[78] CNN No HRF（45）and DRIVE（40）0.894 93.94%[81] CNN（ResNet-101）无驱动（40）0.9732 0.951 0.793 0.974[75]第七十五话只[77]仅限深度残差网络EXE-optha（82）和HEI-MED（169）0.96440.9323检测AUC精度灵敏度特异性[60]第六十话没有Messidor-2（1748）和––百分之九十六点一百分之九十三点九[45个]CNN（AlexNet、VggNet、GoogleNet和没有Kaggle（35，126）越高越高VggNet-16实现越高ResNet）VggNet-sVggNet-s结果较高（90.78%）。VggNet-s（0.9786）（95.68%）（97.43%）[39]第三十九章CNN仅MAE-Ophtha（381），0.562–––ROC（100）和DIAREDB10.193（89）0.392[第四十届]CNN仅EXDiaretDB0（130），DiaretDB1–99.1710098.41(89)和DrimDB（125）。98.5399.297.9799.1810098.44[46个]全CNN没有STARE（20），0.98010.96280.80900.9770人权基金会（45），0.97010.96080.77620.9760没有Messidor-2（1748年），百分之九十八点二–––Kaggle（88，702）和DR2–（520）百分之九十八没有Kaggle（22，700）和IDRiD–百分之九十点零七––（516）没有他们自己的数据集（30244）0.94688.21%85.57%百分之九十点W.L. Alyoubi等人医学信息学解锁20（2020）1003777E-optha（82）和HEI-MED（169）0.96470.9709–0.9477–0.9255[82] CNN No DRIVE（40）和STARE（20）（接下页）W.L. Alyoubi等人医学信息学解锁20（2020）1003778��表4（续）参考文献DL方法病变数据集（数据集大小）性能指标检测AUC精度灵敏度特异性0.98220.9685 0.74390.99只形态学处理和二进制转换，然后输入网络。预训练的VGG16 [51]被用作CNN架构，它包括16个CONV层和4个最大池化层和3个FC层，而DNN包括3个FC层。他们的结果表明，DNN优于CNN和BNN。不幸的是，很少有图像用于网络训练，因此网络无法学习更多的特征。此外，只有一个数据集用于评估他们的研究。X. Wang等人。[44]研究了CNN，VGG16 [51]，AlexNet [19]和InceptionNet V3 [20]的三种可用预训练架构的性能，以检测Kaggle [26]数据集中的五个DR阶段。在预处理阶段，将图像的大小调整为VGG16的224 224PIXELS， AlexNet的227 227PIXELS和InceptionNet V3的299299PIXELS该数据集仅包含166张图像。他们报告说，VGG 16的平均准确率为50.03%，AlexNet为37.43%，InceptionNet V3为63.23%;然而，他们用有限数量的图像训练了网络，这可能会阻止CNN学习更多的特征，并且图像需要更多的预处理函数来改善它们。此外，只有一个数据集用于评估他们的研究。参考文献[45]中研究了CNN的四种可用预训练架构的性能：AlexNet[19]，ResNet [21]，GoogleNet [62]和VggNet [51]。这些架构经过训练，可以从Kaggle [26]数据集中检测到5个DR阶段，该数据集包含35，126张图像。通过微调最后一个FC层和超参数来完成这些CNN的迁移学习。在预处理阶段，图像被增强，裁剪，归一化，并应用非局部均值去噪函数。该研究实现了VggNet-s的准确性为95.68%，AUC为0.9786，特异性为97.43%，其具有比其他架构更高的准确性，特异性和AUC。使用多个数据集使系统更可靠，并且能够泛化[83]。不幸的是，该研究仅包括一个数据集，他们的方法无法检测DR病变。Mobeen-ur-Bertman等人[63]检测了MES的DR水平，SIDOR数据集[31]使用他们的自定义CNN架构和预训练模型，包括AlexNet [19]，VGG-16 [51]和SqueezeNet [64]。该数据集包含分为四个DR阶段的1200张图像。对图像进行裁剪，调整大小为244 244像素，并在预处理阶段应用直方图均衡化（HE）方法进行增强。自定义CNN包括五层：两个CONV层，两个最大池化层和三个FC层。他们报告称，他们的定制 CNN 的最佳准确性为 98.15% ，特异性为97.87%，不幸的是，只有一个数据集被用于评估他们的CNN，并且没有检测到DR病变。W. Zhang等人[65]提出了一个系统来检测自己的数据集的DR该数据集包括13，767张图像，分为四类。这些图像被裁剪，调整大小为每个网络所需的大小此外，训练图像的大小被扩大的数据增强，并通过对比度拉伸算法，用于暗图像的对比度得到改善。他们微调了预先训练好的CNN架构：ResNet50 [66] ，InceptionV3 [20]，InceptionResNetV2 [53] ，Xception [67]和DenseNets [56]来检测DR。他们的方法涉及在这些CNN之上训练添加的新FC层。之后，他们对CNN的一些层进行了微调，以重新训练它。最后，整合了强大的模型。该方法的准确性为96.5%，特异性为98.9%，敏感性为98.1%。不幸的是，CNN不能检测图像中的病变，只有一个私人数据集被用来评估他们的方法。B. Harangi等人[68]集成了可用的预训练AlexNet[19]和手工制作的功能来分类DR的五个阶段。CNN由Kaggle数据集[26]训练，并由IDRiD [34]测试。本研究的准确度为90.07%。不幸的是，这项工作没有检测到图像中的病变，只有一个数据集被用来测试他们的方法。T. Li等人[23]通过微调GoogLeNet [62]，ResNet-18 [21]，DenseNet-121 [56]，VGG-16 [51]和SE-BN-Inception [55]可用的预训练网络来检测其数据集（DDR）中的DR阶段。他们的数据集包括13，673张眼底图像。在预处理过程中，图像被裁剪，调整大小为224 224像素，增强和重新采样，以平衡类。SE-BN-Inception网络的最佳精度为0.8284。不幸的是，这项工作没有检测到图像中的病变，只有一个数据集被用来测试他们的方法。T. Shanthi和R. Sabeenian [69]使用预训练的架构Alexnet [19]检测Messidor数据集[31]的DR阶段。图像被调整大小，绿色通道在被输入CNN之前被提取出来。CNN的准确率达到了96.35。不幸的是，这项工作没有检测到图像中的病变，并且仅使用一个数据集和架构来测试他们的方法。J. Wang等人[70]修改了R-FCN方法[71]，以检测其私有数据集和公共Messidor数据集[ 58 ]中的DR阶段。此外，他们在数据集中检测到了MA和HM他们修改了R-FCN，增加了一个特征金字塔网络，并增加了五个区域建议网络，而不是一个。病变图像被增强用于训练。在他们的数据集和Messidor数据集中，检测DR分期的灵敏度他们报告病变检测的PASCAL-VOC AP为92.15。不幸的是，该研究仅在一个公共数据集上评估了该方法，并且仅检测到HM和MA，而没有检测到EX。X. Li等人。[72]将公共Messidor [58]数据集分类为可识别或不可识别的图像，并将公共IDRiD数据集[34]通过使用ResNet50，分为五个DR阶段和三个DME阶段[21]四个注意力模块。由ResNet50提取的特征用作前两个注意模块的输入以选择一个疾病特征。前两个注意力模块包含平均池化层、最大池化层、乘法层、级联层、CONV层和FC层，而接下来的两个注意力模块包含FC和乘法层。在将图像馈送到CNN之前，进行数据增强、归一化和重构。这项工作的灵敏度为92%，AUC为96.3%，Messidor数据集的准确度为92.6%，IDRiD的准确度为65.1%0.98680.97350.81960.9871[第八十三章]CNN没有驱动器（40），百分之九十八点三百分之九十五点八二79.96% 79.63%百分之九十八点一三追（28）追（20）百分之九十八点七五百分之九十六点七二80.03%百分之九十八点六三百分之九十八点九四96.88%百分之九十八点八[八十四]CNN没有DRIVE（40）和CHASE_DB1（28）。0.95600.95800.86390.96650.95770.96010.87780.9680[70个国家]CNN红色他们的数据集（9194）和Messidor–92.95九十九点三九九十九点九三W.L. Alyoubi等人医学信息学解锁20（2020）1003779�不幸的是，该研究没有检测到图像中的病变6.3. 基于病变的分类本节总结了为检测和分类某些类型的DR病变而进行的工作。例如，J.Orlando等人[38]通过将DL方法与领域知识结合用于特征学习，仅检测DR图像中的红色病变。然后，图像分类应用随机森林方法。MESSIDOR[58]、E-ophtha [73]和DIAREDB 1 [25]数据集的图像通过提取绿色带和扩展FOV进行处理，并应用高斯滤波器、r-多项式变换、阈值操作和许多形态学闭合函数。接下来，红色病变块被调整大小为32*32像素，并被增强用于CNN 训练。数据集分别包含DIARETDB 1、E-ophtha和MESSIDOR中的89幅图像、381幅图像和1200幅图像。他们的自定义CNN包含四个CONV层，三个池化层和一个FC层。他们分别在DIAREDB 1和E-ophtha数据集上实现了0.4874和0.3683的竞争指标（CPM）。P. Chudzik等人[39]使用自定义CNN架构来检测MADR图像。本研究中使用了三个数据集：ROC [35]（100张图像）、E-ophtha [73]（381张图像）和DIARETDB 1 [25]（89张图像）。这些数据集通过提取绿色平面，然后执行裁剪，裁剪，应用Otsu阈值生成掩模，并利用加权和和形态学函数进行处理。接下来，提取MA补丁，并应用随机变换。使用的CNN包括18个CONV层，每个CONV层后面是一个批处理归一化层，三个最大池化层，三个简单的上采样层，以及两个路径之间的他们报告的ROC评分为0.355。参考文献提出的系统。[40]，使用具有圆形霍夫变换（CHT）的自定义CNN检测DR图像的渗出物。他们使用了三个公共数据集：DiaretDB0数据集包含130张图像，DiaretDB1数据集包含89张图像，DrimDB数据集包含125张图像。所有数据集都转换为灰度。然后应用Canny边缘检测和自适应直方图均衡化函数。接着，通过CHT检测光盘，然后将其从图像中移除。图像的1152*1152像素被馈送到自定义CNN中，该CNN包含三个CONV层，三个最大池化层和一个使用SoftMax作为分类器的FC层。Dia-retDB 0、DiaretDB 1和DrimDB检测渗出物的准确度分别为99.17、98.53和99.18。Y. Yan等[74]在DIAREDB中检测到DR红色病变1[25]通过使用随机森林分类器集成手工制作和改进的预训练LeNet架构的功能来裁剪图像的绿色通道，并通过CLAHE增强此外，通过高斯滤波器去除噪声，并使用形态学方法。之后，通

下载后可阅读完整内容，剩余1页未读，立即下载