HongpingHu
等人,
2022; Nomani
等人,
2022
年)。 在适用于
CAD
的各种类型的机器学习方法中,卷积神经网络(
CNN
)是最先进的
方法之一(
Fan
等人,
2022; Faruqui
等人,
2021; Khatami
等人,
2018; Kumar
等 人 ,
2021; Shokraei Fard
等 人 ,
2022; Tsafas
等
人,
2022;Vankdothu
等人,
2022
年)。与具有手工特征的传统机
器学习方法不同,
CNN
可以从原始图像数据中自动学习内在特征,
即使是具有复杂纹理和背景的
HI
最近的相关研究(
Senior et al.
,
2022
年
; Daughheem
等人,
2021; Demir
,
2021; Chattopadhyay
等人,
2022
)证明了
CNN
在分类乳腺癌组织病理学图像的任务中具
有出色的性能。毫无疑问,
CNN
正在成为乳腺癌组织病理学检测的
重要工具。
在这项研究中,我们提出了一种新的策略,用于构建具有联合CNN
网络和七种类型的卷积决策树(CDT)的模型,以对BreakHis数据集
中的HI进行分类(Spanhol等人,2016年)。根据临床诊断需要, 对
于乳腺癌的HI,有两个主要的分类任务:良性和恶性样本的二元分类任
务,以及A/F/PT/TA/PC/DC/LC/MC样本的八类分类任务。我们将分类
任务区分为放大率相关(MD)和放大率无关(MI)任务,以充分表征
我们的网络的分类性能。本文的主要工作概括如下:
改进的DenseNet(Huang等人,2017)称为CA-BreastNet的神经
网络被设计为基本分类器,以初步获得BreakHis数据集的预期分类
性能。我们结合了一个协调的注意力机制(Hou等人,2021),以
提高网络在不同图像放大率下对复杂纹理的特征提取能力。利用
BreakHis数据集,在数据增强之后,网络使用焦点损 失(Lin等
人,2018),以增加模型对硬样本的关注,如LC和DC,从而使网
络更加稳定和平衡。
我们提出了专门的增强分类策略(
SECS
)的快速和稳定的提高
模型的准确性。它为综合分析网络性能提供了一种可行的方法,
也为那些不能熟练改造
CNN
网络内部结构的医学研究者
2.
相关工作
在乳腺癌识别研究的早期阶段,由于缺乏人工智能数据集,制约
了相关深度学习研究的出现随着人们对乳腺癌的关注度越来越高,越
来越多的研究人员进入了利用深度学习进行乳腺癌
HI
识别的领域
(
Karuppasamyet al.
,
2022
年 ) 。
Spanhol
(
Spanhol
等 人 ,
2016
) 构 建 了一 个 相 对 丰 富 和 全 面 的乳 腺 癌
HI
数 据 集 , 称 为
BreakHis
,目前最常用于通过
CAD
进行乳腺癌的组织病理学识别。
为了确保不同研究之间的可比性,文献综述中的乳腺癌
HI
分类方法
均在
BreakHis
数据集上进行
在使用
CNN
进行乳腺癌组织病理学分类的早期研究中,研究人员
专注于二进制分类任务和卷积层较少且结构简单的
CNN
网络,如
AlexNet
(
AlexKrizhevsky
,
2012
) 。
Spanhol
等 人 (
2016
) 在
Caffe
框架下使用了稍微适度的
AlexNet
模型。该模型在
ImageNet
数
据集上进行预训练(
Deng et al.
,
2009
年)和
良恶性分类准确率为81.6%~ 84.8%。Abdullah-Al和Kong(2018)构
建了一个CNN,其中有两个并行的特征提取器,每个提取器由五个残差
块组成。在200个数据集上实现了最佳的二进制分类性能,并提供了
92.19%的准确率。在Matos et al.(2019)中,de Matos et al.利用
ImageNet和CRC数据集进行了迁移学习的新用途。首先,在ImageNet
数据集上训练Inception V3模型以提取特征。然后,用两个支持向量机
代替模型的回归分类器。报告的准确度在86.7%和91.0%之间。 Han等
人(2017)建立了一种端到端分类方法, 基于类结构的深度卷积神
经网络(CSDCNN)模型,这是一种非线性表示学习模型,它将特征
提取步骤放弃为特征学习。采用CSDCNN和数据增强的方法,最好的
二进制分类准确率达到93.2%。
随着临床应用的需求越来越迫切,乳腺癌的亚类自动诊断成为重
要的研究内容。
Bardou
等人(
2018
)使用
BVLCCaffe
构建了一个由五
个卷积层和两个全连接层组成的
CNN
。由于模型结构简单,二分类
和八分类的准确率为
98.33%
,
百分之八十八点二三随着越来越多优秀的网络和训练技巧的出现,
CNN
在乳腺癌
HIs
的子类别分类上
Boumaraf
等人(
2021
)应 用
CNN
模型
ResNet18
来处理
BreakHis
数据集的二进制和八类分类任
务。该模型在
ImageNet
上进行了预训练,并应用了逐块微调策略,
其中
CNN
模型的最后两个残差块对数据更具有域特定性他们提出的
模型实现了
98.42%
的二进制分类和
92.03%
的八类分类的准确率。
Zaalouk
等人(
2022
)训练了几个
CNN
模型,以搜索
BreakHis
数据
集的二进制和八类分类任务此外,还采用随机旋转和水平翻转等数据
增强方法处理过拟合问题。比较结果表明,预训练的
Xception
模型
在二分类和八类分类中分别达到了
98.99%
和
93.32%
的最高准确率
根据上述研究,深度学习方法提供了很大的性能改进,其性能改
进的方法可以总结如下:
广泛使用的迁移学习应用(Pan and Yang,2010)一般是有效的,
它可以缩短训练的收敛时间,提高网络的学习性能。
数据增强方法增加了数据的丰富性,从数据层面缓解了网络的性
能限制,并在一定程度上避免了过拟合。
CNN与其他模块的融合可以加强局部CNN模块,以提高整体分类性
能,如CNN加SVM,CNN加LSTM等以CNN为主的结构模型。
3.
方法
3.1.
整体工作流程
设计的工作流程(图)
1
)分为三个部分。第一部分是数据预处
理 阶 段 , 使 用 三 种 数 据 扩 充 来 丰 富 数 据 量 。 第 二 部 分 是 基 于
BreakHis
数据集的基本分类器的构建和性能评估,以及基于
SECS
的特定增强分类器(
SECs
)的训练第三部分包括指定多种类型的
SEC-CDT
。到