无线胶囊内窥镜图像中的溃疡自动检测方法研究

141 浏览量更新于2024-01-27 收藏 1.58MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报使用深度CNNVaniV，K.V.Mahendra Prashanth电子与通信工程系，SJBIT，印度阿提奇莱因福奥文章历史记录：收到2020年2020年8月17日修订2020年9月12日接受2020年9月18日网上发售保留字：深度学习溃疡检测卷积神经网络（CNN）数据增强机器学习A B S T R A C T无线胶囊内窥镜（WCE）由于其对整个胃肠道进行成像的无痛方法而被广泛接受。在本文中，我们提出了深度卷积神经网络（CNN），用于在不同比例的增强数据集上自动区分溃疡，范围从1000到10000个WCE图像，包括溃疡和非溃疡图像。对不同节点和深度的网络配置进行了详细的调查。提出的四个卷积层的网络架构与<$3ω 3<$卷积滤波器在性能方面表现出显着的改善。的WCE图像从公开可用的WCE数据集和实时WCE视频帧中获得测试结果进行了超参数优化的各种调整参数，如历元，池化方案，学习率，层数，优化器，激活函数和辍学计划。实验结果与十种不同的机器学习分类器进行了比较，表现出更高的预测性能。©2020作者由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍溃疡是胃肠道常见的疾病之一。溃疡影响世界上约 10% 的人（Kaplan，2017）。它们是粘膜内层的糜烂，可能发生在胃肠道。它们最常见于十二指肠、胃、食道和空肠。溃疡有时可能导致严重的疾病，例如Chron's和溃疡性结肠炎（Yuan等人，2015年）。胃肠道中的溃疡在医学上通过内窥镜技术检测。然而，传统的内窥镜检查技术对患者来说是相当痛苦的，并且内窥镜检查方法不能可视化胃肠道中的小肠区域。在过去的十年中，Iddan等人（2000）介绍的无线胶囊内窥镜（WCE）已成为胃肠道（GI）诊断的不可替代的工具。WCE为整个胃肠道（包括小肠）成像提供了一种无创无痛解决方案，这在早期通过传统内窥镜检查是不可能的。WCE是一种药丸大小的瓶盖，患者可轻松吞咽。WCE捕获整个胃肠道的彩色图像约8小时。通常*通讯作者。沙特国王大学负责同行审查医生下载为一名患者拍摄的45000-对于具有异常的情况，具有异常的WCE帧可能仅在所收集的总WCE帧的5-7%的范围内，这成为繁琐的工作，医生手动诊断每一帧是一项耗时的任务。因此，需要一种自动计算机辅助异常检测系统来帮助医生诊断溃疡（Vani和Prashanth，2018，2016，2017）。在过去已经进行了关于内窥镜图像的胃肠道中的溃疡检测的各种工作然而，使用WCE图像进行溃疡检测的工作非常有限。此外，这些技术使用图像处理和使用有限数据库的分割技术来检测溃疡。传统的图像处理和分割方法很难提高检测的准确性。在这项工作中，我们提出了一种方法，旨在使用最先进的卷积神经网络检测WCE图像中的溃疡该架构采用四个卷积层，平均池层，ReLu激活和两个密集层，以提高WCE图像中溃疡的识别效率。这项工作采用了一个巨大的数据库，包括不同类型的溃疡在WCE图像，探索的可能性，提出的工作在检测各种类型的溃疡。所提出的架构旨在详细研究超参数，如历元，批量大小，以及优化器与学习率，辍学和池大小，以获得优化的性能。https://doi.org/10.1016/j.jksuci.2020.09.0081319-1578/©2020作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comV. V和K.V. Mahendra Prashanth沙特国王大学学报3320论文的其余部分分为四个主要部分。第2节涉及使用深度学习在内窥镜图像上进行溃疡检测的最新工作研究。关于预处理、数据集和体系结构的详细信息见第3节。第4节提供了超参数优化的详细调查结果。对所得结果的讨论见第5节。结论见第6节。读者可以参考附录A了解有关开源Python库Tensorflow和Keras API（应用程序编程接口）的更多信息，以及附录B了解有关实验过程中使用的数据集的2. 相关工作本节讨论了在内窥镜和WCE图像上使用深度学习进行溃疡检测。Sun等人（2018）提出了基于VGGNet的CNN模型，用于检测854张图像的胃溃疡，准确率为86.6%。然而，这些实验是在经典的内窥镜图像上进行的。Aoki等（2019）在5560张WCE图像上开发了CNN模型，其中包括糜烂和溃疡，只有440张正常图像。检测准确率为90.8%。Sekuboyina等人（2017）提出了CNN模型来检测WCE图像中不同类型的病变，如出血、息肉、溃疡等。作者将图像分成几个补丁，然后应用CNN。这项工作的敏感性和特异性分别为71%和72%。 Zhanget al.（2017）设计了一个基于CNN的GDPNet模型，用于息肉、溃疡和糜烂等疾病的分类。该模型的准确率为88.9%。Wang等人（2019 a）提出了基于ResNet-34网络的HANet架构，用于WCE图像中的溃疡识别。整体测试准确率为91%。Sen Wang et.等人提出的基于深度CNN的第二次扫视检测（Wang等人，2019年b）。该方法的受试者工作特征曲线（ROC）或曲线下面积（AUC）为0.9469，总的敏感性、特异性和准确性分别为89.71%、90.48%和90.10%。Shanhui Fan等人采用AlexNet卷积神经网络训练数据库，并实现了溃疡检测准确性、灵敏度和特异性分别为95.16%、96.80%和94.79%，AUC值为0.9805（Fan等人，2018年）。然而，该方法采用现成的AlexNet架构，该架构在质量差的图像中显示错误分类。Alaskar等人（2019）使用两个预先训练的CNN，GoogLeNet和AlexNet，在从WCE视频中拍摄的526张图像的数据集上进行的工作Klang等人对7391张粘膜溃疡图像和10,249张正常GI粘膜图像进行了实验，以达到95.4%的准确率（Soffer，2020）。Ozawa等人在3981个溃疡图像上使用CNN构建了CAD系统（Ozawa等人，2019年）的报告。结果显示ROC为0.86。但没有说明准确性。Lee等人在200个正常图像、220个溃疡图像和367个癌症病例上使用inception、ResNet和VGGNet预训练模型构建了一个应用的深度神经网络（Lee等人，2019年）的报告。ROC在0.85至0.95的范围内获得，准确度低得多，为77.1%。使用基于Aoki，Tomonori等人的单次多盒检测器的深度卷积神经网络系统来训练5360个具有溃疡的WCE图像。该方法的灵敏度、特异性和准确性分别为88.2%、90.9%和90.8%（Aoki等人，2019年）的报告。Vallée等人（2019）采用递归注意力神经网络进行WCE图像中的病变检测，在由600张病变图像和600张正常图像组成的数据集上获得了90.85%的准确率。上述文献表明，模型的性能通常使用准确性或ROC等指标进行评估。在建议的工作中，我们采用各种指标来评估性能，如准确性，灵敏度，特异性，召回率，精度和ROC。本文的主要贡献归纳如下：提出一种用于检测WCE中溃疡的深度CNN架构通过在WCE图像为优化性能3. 方法3.1. 使用的数据集和数据扩充用于实验的数据集包括从Endoatlas（2019）和GastroLab数据库（GastroLab，2019）收集的溃疡和非溃疡图像以及有和无溃疡的实时WCE帧。不同类型溃疡的WCE图像见附录B。图1显示了从数据库中收集的不同类型溃疡的实时WCE图像。由于WCE图像的可用性有限，用于深度学习的巨大数据库以避免过度拟合;通过旋转、镜像（水平和垂直翻转）、缩放、移位（宽度和高度）等来增强WCE图像，以获得对缩放和旋转的不变性。在十二指肠溃疡的WCE图像上应用的各种增强方法如图所示。二、数据扩充过程中的一个主要问题可能是部分旋转或部分变换，这些部分变换会增加更多噪声。数据增强可以使数据集更健壮，更容易受到攻击。然而，通过控制迭代的次数，并且通过仅限于经典变换，如在相当大的范围内的旋转、移位、缩放，已经控制了增强数据的内容;而不丢失原始内容和颜色。数据增强后生成的数据集分为训练和测试数据集。通常，三分之二的数据被选择用于训练，三分之一的数据被选择用于测试。然而，在处理更大的数据集时，也通常使用其他比例，例如60：40，70：30或80：20或90：10用于训练：测试数据集（Raschka，2018）。通常，用于训练的更大数据集将有助于更好的准确性。但是，我们的目标是拥有真正代表实时图像的测试数据集，因此选择真正代表实时场景的较大测试数据集是非常重要的。因此，在这项工作中，我们选择了60%的数据集用于训练，40%的数据集用于测试，如表1所示。在训练和测试数据集中，溃疡和非溃疡图像的数量均匀分布，以实现平衡的数据集。为了实现深度学习技术，Keras（Chollet，2019）与Google，Tensorflow（2019）已用于后端。有关Keras和Tensorflow的更多信息，请参见附录A。3.2. 预处理胃肠道和运动图像中复杂的环境条件极大地影响了WCE图像的质量;导致WCE图像具有变化的光照、不均匀的亮度和严重的图像退化，这阻碍了学习过程。学习的效率主要取决于图像的质量，并提供用于学习的数据集，其中具有不同环境条件的不同类型溃疡的图像。采用以下步骤来改进用于训练和测试的数据集的图像质量。●●●V. V和K.V. Mahendra Prashanth沙特国王大学学报3321图1.一、溃疡图像（a）十二指肠溃疡（b）空肠溃疡（c）空肠溃疡（d）回肠溃疡（e）小肠溃疡（f）实时WCE图像，空肠中段糜烂和深层溃疡（g）实时WCE图像，回肠溃疡。图二.不同的数据增强技术应用于十二指肠溃疡的WCE图像。提取WCE图像中视觉上模糊不清的感兴趣区域通过基于拉普拉斯金字塔的对比度限制自适应直方图均衡（CLAHE）和多尺度Retinex与Col- our恢复（MSRCR）的图像融合对提取的ROI进行图像增强。对比度受限自适应直方图均衡（CLAHE）是直方图均衡的增强版本，用于增强图像。在该方法中，图像被划分为小区域称为瓦片和区域增强使用用户特定的局部直方图。此方法有助于保留更精细的线条并提供边缘锐度，但会放大噪声。●●●V. V和K.V. Mahendra Prashanth沙特国王大学学报3322.XX表1用于实验的数据集。数据集培训测试培训与测试的比例（%）训练中的非溃疡与溃疡图像测试中的非溃疡与溃疡图像Sample1（10782：6746）六十比四十五三九一：五三九一三三七三：三三七三Sample2(8515：5083）六十比四十四二五七：四二五八二五四一：二五四二样品3(2376（1626）六十比四十一一八八：一一八八八一三：八一三多尺度Retinex与颜色恢复（MSRCR）有助于提高亮度的地区，照明不足。然而，在这方面，它增加了饱和度并提供了白色的外观。CLAHE和MSRCR的图像融合，有助于实现两种方法的优点。融合增强的图像提供了更好的能见度，在低照度的地区，具有更好的对比度。结果已被证明可以提供更高的峰值信噪比（PSNR）和更高的视觉信息保真度（VIF）。这项工作在我们之前的工作Vani和Prashanth，2018中进行了详细讨论。3.3. 架构在我们对深度网络的改编中，架构采用了窗口大小为（3*3），接着是2*2平均池化和0.5的丢弃。第四个卷积层由256个内核组成，窗口大小为3*3，其次是2*2平均池化，0.5辍学生其次是密集层，这是一个完全连接的层，有128个隐藏单元，丢弃率为50%。全连接层通常连接在网络的末端，以将二维特征图的高级表示转换为一维特征图。最终的密集层具有用于二进制分类的2个单元。由LeCun等人（1998）提出的CNN基本上被设计用于识别二维图像模式。在二维卷积运算中，输入特征图与二维核卷积以获得二维新输出，其可以如等式（1）所示数学描述（一）.具有平均池化层的四个卷积层、ReLu激活层和两个密集层，如图3所示。第一个卷积层的32个内核的窗口大小为（3*3）通过平均池化窗口大小（2*2）和dropout层，Cxy¼fk-1k-1j<$0i<$0pxi;yjwijbi j！ð1Þ辍学率为0.50。第二卷积层由64个窗口大小（3*3）的内核组成，然后是窗口大小（2*2）的平均池化这之后是一个dropout比率为0.50的dropout层第三卷积层包含128个内核其中06x6w; 06y6h。pxi;yj是输入特征图在点xi的像素值;yj，k是核的大小，w和h是输入特征图的权重和高度，wij是卷积的权重图三. 建议的深度学习网络的架构。●●V. V和K.V. Mahendra Prashanth沙特国王大学学报3323ðÞωJX¼1-xe-1000-2000xe.ðÞ ¼内核，b是偏置，f是激活函数，如ReLu，sigmoid或tanh。Cxy是二维卷积运算的卷积输出值，k k是点x;y处的卷积窗口大小。卷积层由许多二维卷积运算组成，这些运算可以用数学方式表示，如等式（1）所示。（二）、Fn¼f. XFn-1~knOn！ð 2Þn是输入特征图的大小对于任意局部区域，比如说Xi，其中i的范围在0到n之间，Xi可以表示为Xi¼x1;x2;. . . ;x<$MωM<$$>3<$其中M是池化区域的大小。最大池化可以用数学表示，如等式（1）所示。（四）、最大池数：最大池数：最大池数：J Ii2N;j 2Mj;i j平均池化可以用数学方法表示，如等式2所示。（五）、其中第n卷积层的第j输出特征图是rep。由Fn表示，N是输入特征映射通道，M是数量。卷积核的ber，kn是卷积核，On是卷积核。averagepool1xjMωMjð5Þj;i j偏移项，表示二维卷积运算，f表示激活函数。在架构的最后，使用Leaky ReLu激活函数。Leaky ReLu是ReLu的扩展版本，它允许接近零的负值通过。建议的完整网络使用RMSProp优化器进行训练，学习率为0.001。关于调整所选参数（如学习率、优化器和激活函数）的完整讨论将在第4.2节中讨论。建议的架构已在Python中使用Keras在NVIDIA GeForce GT 730上进行深度学习。3.4. 配置激活函数：激活函数构成了神经网络的骨干.它用于限制神经元输出激活函数还引入了非线性，以促进对特定问题的更好学习最常见的激活函数是sigmoid，ReLu和tanh，如图5所示。Sigmoid可以用于输出范围为0到1的模型。然而，Sigmoid函数随着层的增加而减少学习，因此不适合深度神经网络（Yu etal.，2020年）。Sigmoid激活函数以数学形式表示，如等式（1）所示。（六）、深度学习是指使用人工神经网络，fx1x1ð6Þ不止一层神经元深度学习是对包含更多计算层的神经网络的进步;它支持更高级别的抽象，预测和密集计算（Schmidhuber，2015）。用于实施深度学习以识别WCE图像中溃疡的算法具体如下：输入：输入图像经过具有3*3内核和32个滤波器的第一卷积层。它返回一个224*224的图像，带有32个可学习的过滤器。卷积：在卷积之后，执行池化以在空间上对输入体积进行下采样，从而减少网络中的参数和计算量;从而使网络不变并且鲁棒以控制过拟合。最大池通过仅计算来自固定区域的最大值来减少输入体积的维度，与平均池相比，平均池计算每个组的平均值，如图所示。四、令Xi为图像的单个输入特征图，其为若干小局部区域X 0; X 1;.的组合。：; Xn，其中双曲正切或双曲正切激活函数是一个缩放的sigmoid函数，但值的范围从1到1。它适用于两类问题。Tanh在数学上表示为Eq.（七）、fxtanhx2-1分 7秒Tanh也可以表示为缩放的S形函数的形式，如等式（1）所示。（八）、fx¼2sigmoid 2x- 18然而，Tanh无法帮助利用sigmoid激活函数中的问题。ReLu（Rectified Linear Unit）是一个广泛使用的激活函数。正如Nair和Hinton（2010）以及Glorot等人（2011）所证明的那样，与其他激活函数（如sigmoid和tanh）相比，ReLu可以大大加速随机梯度下降的收敛，因为它的线性性质并且不会受到反向传播错误的影响。因此，在所提出的工作中，使用了最广泛使用的激活函数ReLu（整流线性单元）（图5（c））。ReLu整流器函数的定义如方程所示。（九）、fx0;如果x0

下载后可阅读完整内容，剩余1页未读，立即下载