优化MCCT模型：肺部疾病分类的超参数调优与图像预处理

176 浏览量更新于2024-06-18 收藏 2.03MB PDF 举报

"该研究提出了一种改进的紧凑卷积Transformer（MCCT）模型，用于肺部疾病的分类，特别关注于解决深度学习在医疗图像分析中的挑战，包括数据集不平衡和训练时间过长的问题。通过使用深度卷积生成对抗网络（DCGAN）生成合成图像以平衡类别数量，以及应用图像预处理技术来优化X射线图像的质量。此外，进行了超参数调整的消融研究，以减少训练时间并保持模型的准确性。MCCT模型在六种不同的基准模型中表现出最佳性能，实现了95.37%的测试准确率，并显著缩短了训练时间。" 本文主要探讨了利用深度学习技术对肺部疾病进行自动诊断的潜力，特别是针对X射线图像的分析。肺部疾病的早期识别对于病人的预后至关重要，而深度学习可以提供快速且准确的辅助诊断工具。然而，当前的研究面临着两个主要问题：一是医学数据集通常存在样本量不足和类别不平衡，这可能影响模型的泛化能力；二是深度学习模型的训练过程通常需要大量的时间和计算资源。为了解决这些问题，研究者采用了改进的CCT模型，即MCCT，它是一种结合了紧凑结构和Transformer架构的深度学习模型。MCCT模型旨在降低处理时间和计算复杂性，同时保持高精度。为了平衡数据集，研究者使用了DCGAN，这是一种深度学习模型，能够生成与原始图像具有相似模式和特征的合成图像，从而增加类别中的样本数量，尤其是那些罕见或难以获取的病例。在图像预处理方面，研究者采取了一系列技术来提升X射线图像的质量，包括去除不必要的区域、增强图像的亮度和对比度，以及应用伪影去除、降噪和增强技术，以更好地突出图像中的异常特征。这些预处理步骤有助于模型更有效地学习关键的疾病特征。为了优化MCCT模型的性能，研究人员进行了超参数调整的消融研究，通过改变模型的层数和连接结构，找到了既能减少训练时间又能保持高准确性的最佳配置。结果显示，MCCT模型在相同的图像尺寸下，相比VGG19、VGG16、ResNet152、ResNet50、ResNet50V2和MobileNet等其他模型，不仅在测试准确率上达到了95.37%的高水平，而且显著降低了训练时间，每个epoch仅需10-12秒，远低于其他模型的80-90秒。此外，通过多次训练模型并逐步增加训练图像的数量，研究进一步验证了MCCT模型的稳健性和泛化能力。这一方法为深度学习在肺部疾病诊断中的应用提供了新的思路，有望加速临床决策过程，提高医疗服务质量。

I.U. Khan

等人

智能系统与应用

（

2022

）

200147

× × ×

n=1

（

）

下

一

页

（

）

下

一

页

（）

图三

DCGAN

架构

GAN结合了两个神经网络，称为生成器和判别器，它们通过最小化原始

数据和生成数据之间的概率分布距离来创建新的数据实例。生成器的任

务是生成看起来像原始训练数据的新的假（人工）数据实例。然后，人

工神经网络区分假数据（人工生成的）和真实数据。如果伪造者可以识

别假数据，它会将数据发送回生成器，生成器会更新假数据，再次将其

发送给伪造者进行识别。在应用DCGAN之前，来自数据集的所有图像都

已调整大小为224 224。在训练过程中，生成器网络通过最小化损失函

数来提高其生成人工样本的能力。另一方面，通过最大化相似的损失函

数，神经网络学会更好地区分原始样本和假样本。基本GAN的一些限制

是监督学习、无法检测过拟合、在小数据集中使用时的不稳定性（Jin等

人，2020年）。出于这个原因，我们使用DCGAN，它将GAN与深度CNN

相结合，同时通过修改确保稳定的架构（Salehinejad等人，2018年）。

DCGAN的架构和功能与原始GAN相似，除了卷积和生成器网络都使用卷

积转置层。以下等式-

在归一化层中，激活函数LeakyReLu和Conv2D转置并分别被整形为56

56 一百二十八，一百一十二 112 64和224 224 32.在最后一层

中，使用conv2D层，我们获得了图像大小为224 224 3的输出。批量归

一化（Ioffe和Szegedy，2015）用于稳定学习过程，并将输入归一化为

零均值和单位方差。

该算法将生成器网络的生成图像和源数据集的真实图像作为输入。

然后，该输入经过四个块的卷积层的组合。卷积网络的每个卷积块包含

Conv2D，LeakyReLu作为激活函数和dropout层。经过四个区块后，识

别器识别图像是真是假。该分类器作为一个二元分类器，预测真实的假

图像。因此，采用二进制交叉熵作为损失函数，如公式2所示（Kora

Venu和Ravula，2020）：

JBC

（

）

∑

[

log

（

））

（

）

log

（

）

]

（

）

这里，N是训练样本的数量，y

是训练样本n的目标标签（原始图像的标

签是1，而伪图像的标签是1）。

图像为0），

是训练样本n的输入，

是模型，

tion被用来训练生成器和递归网络（Kora

神经网络权值

。

Venu和Ravula，2020）。

minmaxV

GAN

（M，N）

= E

xPdata

（x）[

logM（x）

] + E

（z）[

log（1

M（N

（z）]（1）

如果生成的图像与真实图像非常相似，则识别器会误以为这是真实

图像，并识别出伪造图像

N M

图像为真实。另一方面，如果生成器生成了一个假图像，

其中，M是鉴别器，N是生成器，E

Pdata

（x）， E

z Pz

（z）是所有真实和虚假

实例的期望值，N z是映射到数据空间的生成器函数。X表示原始

其中，

M x

是X来自原始数据分布而不是来自生成的数据分布的概率。

是从标准正态分布中采样的随机噪声变量，图3代表了本研究中使

用的发电机网络的详细架构。

最初，生成器将随机的100 1噪声向量作为输入，该噪声向量被馈送

到密集层中并重新整形为14 14 512。我

们使用四个convolution2D转置和一个conv2D层，在这个架构上采样的

图像大小表示从14 14 512到224 224 3的大小。

大小为14 14 512的数据通过第一个卷积2D转置，并被重新整形为图

像大小28 28 256。在第二层、第三层和第四层中，架构相同。第一个

Conv2D转置层的输出通过批处理转发

不类似于原始图像的图像，则SVM将其识别为假数据，并且获取梯度，

其通过反向传播更新生成器的权重。具有更新权重的生成器生成更好的

假图像，并不断尝试欺骗伪图像识别假图像为真。通过这些生成和鉴别

的循环，可以获得鲁棒的生成器，其能够产生与真实图像非常相似的假

图像，并且可以用于增加特定数据集的图像的数量。

4.2.

训练策略和增强数据集生成

如前所述，我们的数据集包含四个类别，不同类别的样本数量不平

衡。图像数量最多（10192）的是Normal类。我们通过创建接近正常类

的图像编号来平衡其他三个类。对于训练DCGAN，使用调整大小的

（224 ×224）数据集。为常态

剩余18页未读，继续阅读

cpongm

粉丝: 6

优化MCCT模型：肺部疾病分类的超参数调优与图像预处理

肺部疾病CT图像数据集

基于肺CT的图像处理方法

基于CCT模型的基底式胶结疏松砂岩声波速度修正模型 (2013年)

CCT

CCT.rar_CCT曲线

CCT考试语法

MTK6795 CCT

CCT turning guide

CCT211-Term-Project:CCT211学期项目-Marcin J.和Robin T组

MTK6589 CCT工具

最新资源