FocalMix：用于3D医学图像检测的半监督学习

90 浏览量更新于2023-10-23 收藏 735KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3951FocalMix：用于3D医学图像检测的半监督学习王东1张元2张可欣2，3 <$王立伟1，21北京大学2北京大学机电工程学院机器感知MoE重点实验室3亿准医疗人工智能有限公司公司{wangdongcis，yuan.z，zhangkexin，wanglw}@ pku.edu.cn摘要将人工智能技术应用于医学影像学是医学领域最有前途的研究方向之一。然而，最近在这一领域的大部分成功高度依赖于大量仔细注释的数据，而注释医学图像是一个昂贵的过程。在本文中，我们提出了一种新的方法，称为FocalMix，据我们所知，这是第一个利用半监督学习（SSL）的最新进展进行3D医学图像检测。我们对两个广泛使用的肺结节检测数据集LUNA16和NLST进行了广泛的实验。结果表明，我们提出的SSL方法可以实现高达17.3%的国家的最先进的监督学习方法与400个未标记的CT扫描。1. 介绍医学影像学在现代医学实践中起着重要的作用。该领域的一个重要趋势是利用深度学习（DL）和人工智能（AI）中的先进技术先前的工作已经在各种特定任务中证明了有希望的结果，例如皮肤癌分类[8]，视网膜眼底图像分析[12]，以及一些初步的现实世界应用，例如，[5]的文件。然而，我们认为，成功不仅应归功于深度学习技术的最新进展，还应归功于大量仔细注释的数据。一方面，注释医学图像是一个昂贵且耗时的过程。这一过程需要有经验的临床专家阅读检查报告，将其与其他检查结果相结合，有时还需要与其他专家进行咨询。此外，甚至更难以用人工注释诸如CT和MRI的3D图像。*同等缴款。†部分工作是在易准医疗AI实习期间完成的。更多的信息。另一方面，医院信息系统中存储着大量的原始医学图像相对于人工注释的高开销，检索它们的成本可以因此，我们是否可以利用这些几乎没有注释的原始医学图像来提高深度学习模型的诊断准确性与此同时，半监督学习（SSL）近年来也得到了广泛的研究。大多数最新的SSL方法通常添加在未标记数据上定义的辅助损失一致性正则化项[30]），或者甚至标记和未标记数据的线性插值MixUp增强[39]），进入损失函数，以获得更好的泛化能力，从而在测试集上获得更好的性能。其中一些已经在图像分类数据集上取得了巨大的成功，如CIFAR [16]，这充分证明了利用未标记数据的潜在将SSL的最新进展应用于医学成像问题似乎是一种诱人的方法。然而，由于人们更关心的是医学成像中的病变检测任务，而不是现有SSL文献中广泛研究的分类任务，因此许多技术细节仍未得到探索。例如，现代SSL框架通常要求损失函数能够处理软标签（例如，类上的平滑概率），而大多数一阶段病变检测模型使用焦点损失[22]，其没有这种自然扩展。此外，国家的最先进的SSL方法使用平均合奏获得伪标签的未标记的数据。尽管如此，很难对检测模型预测的边界框取平均值。最后但并非最不重要的是，很少有研究涉及医学图像的数据增强，然而，这几乎是SSL方法实现其最近的成功不可或缺的组成部分。在本文中，我们讨论了一个原则性的方法，称为Fo-calMix，用于定制现代SSL框架，以克服上述问题。首先，我们提出了一个通用的泛化的焦点损失，允许使用软-3952具有偏斜分布的目标训练标签（类似于大多数检测模型遇到的离散情况下的类别不平衡）。3.1.然后，介绍了实际的设计，以说明我们如何可以扩展的SSL框架中的3D医学图像检测的重要组成部分。具体而言，我们提出了一种目标预测策略，该策略通过旋转和翻转来利用增强图像补丁的锚级集合（Sect. 3.2）。此外，MixUp增强适用于光环境中图像级和对象级的医学图像检测任务（一）（b）第（1）款医学图像检测任务的独特特征（第二节）3.3）。在本文中，我们主要采用最先进的SSL方法MixMatch [3]作为运行示例，以提供更清晰和更易于理解的演示。所提出的方法可以被转移到其他现代SSL框架（例如，[37]不太努力。通过对两个广泛使用的CT扫描肺结节检测数据集的广泛实验，我们表明，所提出的SSL方法FocalMix可以大大优于经过良好调整的最先进的监督学习方法（Sect.4.2）。烧蚀研究进一步证明了我们提出的软目标损失函数的有效性，用于目标预测的集成方法，以及两个级别的MixUp策略（第二节）。4.3）。此外，结果表明，当已经有相当大的注释数据集时，FocalMix仍然可以提高监督学习的性能。4.4）。总之，本文的主要贡献是：• 我们提出了FocalMix，一种新的半监督学习框架，用于3D医学图像检测。• 据我们所知，我们的工作是第一次调查的问题，半监督学习的医学图像检测。• 通过大量的实验，我们证明了所提出的半监督方法可以显着提高性能的全监督学习方法。2. 背景和准备工作2.1. 三维医学图像医学图像的三维检测是医学图像分析中的一个重要课题。为了检测不同尺度的病变，大多数工作采用基于锚的检测器，例如特征金字塔网络（FPN）的3D变体[21]。同时，焦损被广泛地用于克服图1：（a）是将目标分配给锚点的示例。虚线网格表示其中定义了锚框的输出特征图，并且网格中的每个箱对应于特征图中的点粉红色框是地面实况边界框。橙色框是正锚，蓝色框是负锚。(b)是我们用于目标预测的增强方法的一个例子。我们使用翻转增强的图像补丁和预测的概率为每个锚与模型。之后，逆变换被应用于面片和锚点。我们仅展示了两个示例锚点以用于说明目的，并对每个锚点使用一致的着色。请注意，3D图像中的锚也是三维的，为了更好的可视化，我们仅显示2D2.1.1锚框锚框是预定义的边界框，密集地平铺在图像上以匹配目标对象。在[29]之后，为了捕获不同形状的对象，将Anchor框设置为具有不同的比例和纵横比。每个锚对应于来自检测器的输出特征图中的像素，并且与其感受野共享相同的中心。由卷积层实现的迷你网络用于以滑动窗口方式对每个锚点进行预测。在训练期间，当且仅当锚框在并集上的交集（IoU）方面与某个地面实况边界框高度重叠时，锚框被图1（a）示出了示例。在推断期间，网络预测对象性得分（也称为“客观性得分”）。置信度得分）和每个锚框的坐标偏移作为输出。特征金字塔网络[21]将锚点放在多尺度特征图上，以增强小物体的检测性能。2.1.2焦点损失锚点分配方法导致相对于负锚点的正锚点非常少，这被Lin等人称为前景-背景不平衡。[22]第20段。为了缓解这个问题，他们引入了焦点损失：FL（pt）=−αt（1−pt）γlog（pt）（1）.前景-背景类不平衡[22]。本节简要介绍这些方法。pt=p如果y=11-p否则。（二）P=0.01p=0.9翻翻转P=0.01p=0.9pred3953我J其中y∈ {0，1}是锚点的真实值标签，p是模型为了平衡阳性和阴性样本的重要性，γ是聚焦参数。pt的意思可以是例如（x′，y′），标记或未标记，如下所示λBeta（η，η），（5）λmax=max（λ，1−λ），（6）x=λx+（1−λ）x′，（7）被认为是预测置信度，˜ ˜′（八）等式中的项。(1)用于降低可信示例的权重，以使模型专注于困难（不太可信）的示例。2.2. 半监督学习半监督学习（SSL）的目的是利用未标记的数据来提高模型的性能。在本节中，我们简要回顾了一个名为Mix-Match [3]的SSL框架，我们的工作主要建立在该框架上。MixMatch不仅是最先进的SSL方法之一，而且是一个统一的框架，它集成了这一研究领域中最有价值的尝试的精神（例如，熵最小化[11]，一致性正则化[30]和MixUp增强[39]）。这项工作的中心论文是以MixMatch为典型示例，展示如何在可行的情况下为医学成像领域量身定制通用SSL方法。换句话说，我们的贡献与SSL的进展基本上是MixMatch由两个主要部分组成，未标记数据的目标第一组件需要定义给定数据点的一组随机变换（例如，图像）以使得其语义（例如，类标签）几乎没有变化。在图像分类的例子中，旋转和剪切是两种广泛使用的增强。MixMatch使用当前模型参数预测的平均集合由每个未标记训练样本u的K个增强实例u的θ表示y=λy+（1−λ）y。经过上述过程，我们可以从标记和未标记的数据中获得一组带有监督信号的增强训练样本，然后使用监督目标来训练模型参数。3. 方法在本文中，我们试图利用现代半监督学习方法在医学图像检测。为了实现这一目标，MixMatch框架中的两个基本组件在S节中引入。2.2是专门为病变检测任务定制的：目标预测和MixUp增强。在此之前，我们首先提出了一个通用的概括的焦点损失，这使我们能够训练检测模型与软训练目标，发生在大多数现代SSL框架。我们提出的方法的概述如图2所示。3.1. 软目标聚焦损失半监督学习通常涉及软训练目标（例如， y在方程中（8））。这在SSL文献中很少被提出来作为一个然而，在Sect中引入。2.1，现有技术的目标检测方法通常使用将两个加权项添加到原始交叉熵损失的焦点损失，即，α（y）1y<$=KΣKk=1p模式l（u∈k;θ）。（三）和β（y，p）=（1−pt）γ在方程中。（一）.这两个项都依赖于类标签，通过将它们写为y的函数来强调这一点，不幸的是，它们没有平凡的然后，这些猜测的标签被进一步转换为锐化算子作为训练目标。锐化算子（对于L个类中的第i个）由下式定义：扩展，如果y可以取0和1.这是阻碍我们直接使用现成的SSL方法的主要因素之一。因此，我们认为，1，L夏普n（y<$，T）i=y<$ Tj=11y'T，（4）我们提出的方法相应地将这两个术语推广到软目标的情况。第一学期本来是为班级不平衡而其中T，称为温度，控制输出分布的平滑度（当T→0时，输出变成一个单热向量）。锐化操作隐含地强制模型在未标记的数据上输出低熵预测。一旦未标记数据的训练目标被可用，MixMatch进一步利用MixUp增强[39]用于标记和未标记数据。更具体地说，给定具有其标签（或预测目标）即（x，y）的标记（或未标记）数据点，MixUp增强产生具有另一个训练的随机线性插值3954并且通常与类的频率倒数成比例y.更具体地说，对于不太频繁的正例，α大于负例，以防止后者主导总损失。在我们的例子中，这个问题相当于有一个倾斜的软标签分布。因此，α（y）应当优选地与y的概率密度函数成反比。然而，沿着模型训练的方式进行密度估计在计算上不是因此，我们假设y的密度函数以与1/y大致相同的速率衰减，并且3955FPNp=0.9一B…CDEy=0.85y=0.92p=0.8A：K倍增强;B：FPN预测;C：反向转换;D：平均集成;E：锐化输入标记的图像映像级目标混淆对象级混淆目标预测未标记图像预测目标y=0.1y=0.83y=0.1y=0.83y=0.92软目标聚焦损失y=0.8y=0.18y=0.8y=0.18y=1.0图2：我们提出的方法FocalMix概述。对于一个输入批次，分配标记图像中锚点的训练目标根据注释框，而未标记的是用当前模型预测的，如图的下部所示。在将两个级别的MixUp应用到整个批次之后，我们使用所提出的软目标焦点损失来训练模型。在本文中，我们仅显示每个3D CT扫描的一个切片，上面有3D锚，以便于呈现。0和1处的密度被视为要通过交叉验证确定的超参数，由α0和α1，req表示。在这个假设下，我们可以推导出软标签的α（y）的形式为α（y）=α0+y（α1−α0）。第二项（1−pt）γ用于降低权重，示例（特别是，背景锚点），检测模型的训练过程。我们可以将该术语解释为预测“置信度得分”pt与其目标值之间的差异1），通过它可以在一定程度上衡量训练示例的硬度从这个角度来看，我们可以自然地将这个术语推广到软目标标签，将其重写为ab的γ次幂求解模型预测p和其训练目标y之间的差异，即， β（y，p）= |y-p |γ。综上所述，建议的SSL软目标焦点损失为：SFL（p）=[α0+ y（α1− α0）]·|y-p |γ·CE（y，p），（9）其中CE（y，p）=−ylogp−（1−y）log（1−p）表示交叉熵损失。当y∈ {0，1}时，我们可以检查焦点损失是我们提出的软目标焦点损失的特殊情况。3.2. 锚级目标预测未标记数据的目标预测是SSL的传统和现代方法中广泛使用的组件。然而，如何将现有的目标预测方法从分类转移到检测并不是一个简单的问题，因为检测模型输出边界框用于目标对象，而不是更结构化的类别标签。在FocalMix中，我们建议在锚级别处理这个问题。遵循计算机视觉中的常见做法，我们在训练期间从原始图像中采样相同大小的块（在我们的实验中为160×160×160我们还确保图像块的边缘长度（例如，160)可被最大步幅整除（例如，16）在FPN中使用因此，图像块中的每个锚在旋转或翻转之后总是可以落入另一锚的位置我们将每个补丁的增强定义为在其上应用这两种类型的变换值得一提的是，3D医学图像在不同方向上的旋转和翻转的组合比2D情况下的组合更丰富（48种不同的组合对8种）。然后，我们使用该模型来预测每个锚点匹配变换后的图像块中的对象的概率。之后，我们可以通过逆变换（旋转或向后翻转）获得原始补丁中每个锚点的猜测目标。读者可以在图1中找到一个直观的例子。如图2所示，我们重复上述数据增强过程K次，并为补丁中的每个锚点生成K个猜测目标然后，我们通过平均集合来聚合最后，我们应用如在等式1中的锚式锐化操作(4)为了获得给定3956我我我我在模型训练中使用的补丁。3.3. 用于检测的MixUp增强是MixMatch框架中的一个重要组件，它鼓励模型在训练样本之间线性地存在，以获得更好的泛化性能。香草MixUp过程被设计用于图像分类设置，其中每个图像与一个类别标签相关联，而医学图像在我们的任务中用诊断病变的边界框注释因此，不能直接使用vanilla MixUp增强。在本文中，我们介绍了两种适用于医学图像中病变检测的MixUp方法：图像级MixUp和对象级MixUp（参见图4中的说明性示例）。图像级混淆。其难点主要在于如何在混淆两幅图像的情况下将训练目标混淆。尽管医学成像中用于检测任务的实际标签是边界框，但是通过对两组框进行线性插值，我们不能得到像分类中的软类那样有意义的东西相反，我们建议在锚点级别混淆训练信号。形式上，给定两个相同大小的医学图像及其训练，对于每个锚点（x，{yi}）和（x′，{y′}），我们生成增强样本（x′，{yi}），如下所示。λBeta（η，η），（10）λmax=max（λ，1−λ），（11）概率是一个积极的例子），我们不再为了简单而混淆训练目标。4. 实验我们评估我们提出的半监督框架FocalMix的肺结节检测任务。实验是在 LUNA16 数据集上进行的，LUNA16数据集是肺结节检测文献中使用最广泛的数据集我们还使用NLST数据集作为进一步评估的未标记数据的额外来源。LUNA 16[31]是LIDC-IDRI数据集[2]的高质量子集。共包含888个胸部CT扫描，1186个大于3mm的注释结节。所有注释均由至少三位（四位）放射科医生同意。其他混淆的结节和非结节被标记为NLST[35]（国家肺部筛查试验）最初是为了比较胸部CT和胸部X线检查检测肺癌的有效性而建立的。NLST数据集中有大约75，000个CT扫描，包括参与者的特征、扫描测试结果、诊断过程等。由于结节位置等注释在该数据集中不可用，因此我们仅在如第2.1节所述的选择过程后将其用作额外的未标记数据集。4.4评价在[31]之后，我们使用自由响应接收器操作特征（FROC）和竞争性能度量（CPM）来测量检测性能。˜ ˜′（十二）曼斯。CPM总分定义为平均值x=λx+（1−λ）x，y=λy+（1−λ）y′，i.（十三）图像级MixUp算法在病灶检测任务中具有更直观的解释能力，其目标是将病灶从背景纹理中区分出来。锚点到锚点的混淆要求模型能够检测到与比平常更强的背景噪声混合的病变，类似于“高原训练”的想法对象级混合。在医学成像任务中，对象（即，病变）包含比背景纹理多得多的信息，但是对象的数量通常是有限的（在大多数时间中，每个医学图像只有一个病变）。因此，我们建议通过混合每个训练批次内不同的病变模式来生成额外的对象实例。换句话说，对于训练批次中的每个图像内的每个对象，我们从当前批次随机采样另一个对象（10-12）。注意，对象仅仅是标记图像的注释框，而对于未标记图像，具有高预测置信度的预测框被视为检测到的对象。由于所有这些对象都具有相当一致的目标（具有高当假阳性率为1/8、1/4、1/2、1、2、4和每次扫描8 FPS。尽管一些相关文献使用LUNA16数据集上的10倍交叉验证来计算评估指标，但在半监督设置中不是很方便，其中标记和未标记数据的数量可能在不同的实验中不断变化。相反，我们将该数据集重新拆分为533个CT扫描用于训练（60%）和355个用于测试（40%）。在我们的实验中，所有用于半监督学习的标记数据和未标记数据都是从训练集中采样的。4.1. 实验装置检测模型根据[26]中的建议，我们使用完全相同的模型，FPN的3D变体[21]，作为FocalMix的完全监督基线和由于先前工作中使用的代码（例如，[23])目前不可用，我们在整个实验中使用我们的内部实现。在我们的实施方案中，骨干网络是一个修改后的 3Dresid.Net。有20个基本残差块的ual网络[13]。3D FPN输出相对于输入图像具有步幅{2，4，8，16}像素的四个级别的特征，并且基础锚点3957标记未标记召回率（%）@ FPCPM（%）即兴表演0.1250.250.5124825-46.754.060.668.674.479.182.466.611.5（17.3%）2540057.664.574.680.587.090.192.178.150-57.265.771.477.982.685.687.275.46.6人（8.8%）5040064.171.078.785.289.392.393.582.0100-64.973.879.785.289.092.394.582.84.4（5.3%）10040073.480.984.888.692.394.796.187.2表1：LUNA16数据集的主要结果。我们分别用{25，50，100}标记的CT扫描评估FocalMix。即兴表演表示CPM相对于完全监督基线的改进（括号中显示的相对改进）。大小分别设置为{4，8，16，32}。在训练过程中，我们首先将输入体积调整为间距= 1mm，然后随机裁剪大小为160×160×160的3D面片作为3D FPN的输入。对于全面监督的培训，我们使用焦点损失进行对象分类，并使用平滑L1损失进行3D边界框回归，如[22]所示。我们设α0=0。05，α1=0.95，γ=2。0表示焦点丢失。具有大地实况框的IoU高于0.3和小于0.1的值分别被设置为正和负，而其它值在训练期间被忽略该模型使用ADAM优化器进行端到端训练，批量大小为8。我们从0.001开始学习率，并使用余弦退火策略[24]。如果没有指定其他方式，我们训练模型800个epoch。半监督学习。在SSL设置中，我们在一批输入中使用相同数量（更具体地说，8个）的标记数据和未标记数据。我们在未标记的数据上应用软目标聚焦损失。我们设α0=0。05，α1=0。第95章为了与那些被监督的损失保持一致其他设置与监督版本中的设置相同。对于MixUp增强，首先应用图像级MixUp，然后应用对象级MixUp。我们使用η=0。对于MixUp和T=0，为2。7在整个实验中进行锐化。完全监督的基线性能。正如[26]中所建议的，新提出的SSL框架应该与经过良好调整的强有力的完全监督基线兼容，并建立在该基线上，以进行公平评估。因此，在展示我们实验中的主要结果之前，我们首先比较了我们的基础模型的性能（即，3D FPN的内部实现）与其他研究人员通过使用完全相同的10倍交叉验证协议在该数据集上报告的最先进的结果示于表2中。由于我们只关注检测模型本身，因此在我们的实现中没有使用后处理方法，例如肺分割以减少假阳性，这可以进一步提高CPM分数。我们可以从表中得出结论，我们的基础模型可以实现与各种强大的最先进的单阶段检测方法相当的性能。我们还报告了其在我们自己的数据拆分上的性能，该数据拆分用作图3：LUNA16上不同数量的未标记数据的性能。我们使用100个标记的图像。完全监督基线的实验与额外的外部来源的未标记的数据（节。4.4）。方法数据拆分CPM（%）[41]第四十一话10倍84.2[19]第十九话10倍86.2S4ND [14]10倍89.73D FPN [23]10倍91.9我们的基本模型10倍91.2我们的基本模型533/35589.2表2：我们实验中使用的基础模型的性能。我们重新实现的3D FPN与最先进的单阶段结节检测模型相当。4.2. 主要结果表1显示了FocalMix在LUNA16数据集上的性能，其中包含不同数量的标记数据。报告了7个假阳性率的召回率以及总体CPM评分。请注意，为了进行公平的比较，我们使用相同的标记数据子集作为固定数量的标记数据，并使用相同的未标记数据集作为所有情况，两者都是从训练集中采样的。我们可以得出结论，通过利用400个未标记的原始图像，FocalMix可以始终优于分别具有25、50和100个注释CT图像作为标记数据的完全监督基线。当我们有25个标记图像时，完全监督模型只能获得66.6%的CPM分数，而FocalMix将其提升到78.1%，相对提高了17.3%。与此同时，100名3958(a) 损失函数(b) 扩增时间（K）。(c) MixUp方法损失函数CPM（%）监督82.8SFL，不含软α、β失败SFL（不含软α）84.4SFL（不含软β）83.7SFL85.2KCPM（%）185.9286.3487.2887.1混淆级别CPM（%）图像对象--85.2C-86.7CC87.2表3：消融研究。模型使用100个标记的扫描和400个未标记的扫描进行训练。失败表示结果不同。尽管完全监督模型已经达到了82.8%的CPM，但FocalMix仍然可以通过4.4%的绝对改进来大幅提高其性能。我们还可以从表1中观察到，通过使用400个未标记的CT扫描，FocalMix可以实现与使用两倍标记数据量的完全监督基线相当的结果。换句话说，仅仅从数据库中收集400个原始CT扫描图像，其效果与具有50个仔细注释的CT扫描图像大致相同。此外，有趣的是，我们提出的SSL方法Fo-calMix可以在100个标记和400个未标记扫描的情况下获得相当接近的CPM分数（87.2%）监督学习结果（89.2%），533个标记扫描。图3显示了不同数量的未标记CT扫描的性能。我们可以观察到，CPM得分随着未标记数据量的增加而持续增长，这证明了在FocalMix中使用未标记数据的有效性。4.3. 消融研究在本节中，我们研究了不同组件的有效性（即，损失函数，目标预测方法，MixUp增强策略）在我们提出的半监督方法中通过对LUNA16数据集的消融研究。由于标记的训练数据太少会导致不稳定的结果，因此我们使用100张标记的图像进行以下所有实验。损失函数。我们提出的软目标的焦点损失generalizes的焦点损失，通过调整其每一项，以适应modate软目标。由于交叉熵损失可以自然地处理软标签，因此仅修改前两项，即α（y）和β（y，p）。为了研究我们的扩展分别对这两个术语的贡献，我们使用“伪硬目标”将建议的损失与其退化版本进行比较也就是说，我们将概率大于0.5的软目标视为正例，而将其他软目标视为反例。通过这种方式，我们可以在我们的SSL框架中使用原始焦点损失中的α和β如表3（a）所示，我们可以看到，通过使用具有伪硬目标的退化版本中的α或β（甚至在排除两者时发散）来损害检测性能，这证明了我们设计的软目标泛化对焦点损失的贡献。目标预测。在目标预测阶段，我们首先在K个不同的增强上进行预测，并通过在锚水平上取平均来集成预测为了证明该集成过程的贡献，我们在表3（b）中报告了不同K结果表明，当使用单一增强方法进行目标预测时，CPM得分仅为85.9%，而当增强次数K增加到4时，CPM得分提高了1.3%，验证了集成策略的然而，我们也可以注意到，当K=4时，性能开始饱和。因此，我们在整个实验中选择K=4混合增强。在FocalMix中，为医学图像设计了两种MixUp策略：图像级混合和对象级混合。如表3所示，图像级MixUp可以将CPM分数从0.852提高到0.867，并且对象级MixUp进一步将结果提高到0.872。我们还举例说明了图4中的混合的一些例子。直观地说，图像级MixUp的目标是鼓励模型在前景和背景之间线性执行，而对象级MixUp鼓励模型检测具有更丰富模式的病变。4.4. 更多标记和未标记数据的SSL在前面的部分中，我们分析了Fo- calMix在相对少量的标记数据下的性能。虽然这可以说是现实世界应用中最常见的场景，但当有大量训练集可用时，SSL是否仍然可以提高监督学习的性能也是一个有趣的研究此外，标记数据和未标记数据的数据分布之间通常存在不匹配。因此，我们还通过使用来自LUNA16的所有533个CT扫描作为标记数据并使用外部数据库NLST（具有与LUNA16的数据分布可能不同的数据分布）对未标记数据进行采样来评估我们提出的SSL框架。数据选择。NLST数据集包含约75，000个CT扫描，其中大量不包含结节发现。因此，我们试图过滤掉这些不相关的IM-没有结节的年龄。具体来说，我们首先使用LUNA16训练3D FPN，对NLST的随机子集进行预测，然后挑选出至少有一个预测结节具有高置信度的CT扫描（阳性结节的阈值设置为0.8）。挑选完毕，我们离开将3,000次扫描作为未标记的训练数据。3959图像级混淆对象级混淆贴片轻轻一贴片B λ=0.8λ=0.6诺维A诺氟沙星B λ=0.8λ=0.6图4：两个MixUp方法的说明性示例。左图显示了图像级MixUp，其中红色箭头指向原始图像中的结节。右图演示了对象级别的MixUp，我们放大结节并将其定位在中心每个图像补丁的更好的可视化。模型CPM（%）全监督89.2完全监督w/MixUp90.0FocalMix90.7表4：具有较大规模标记和未标记数据的FocalMix。我们使用LUNA16中的所有标记数据和从NLST中选择的未标记数据结果结果示于表4中。我们训练所有模型400个epoch。当使用所有533个注释的CT扫描时，我们提出的MixUp策略（即，锚级和对象级MixUp）可以将全监督学习方法的 CPM得分从 89.2% 提高到90.0% 。FocalMix通过利用约3，000张无注释的图像进一步将此结果提高到90.7%。5. 相关工作3D医学图像中的检测。由于篇幅有限，本文主要综述了肺结节检测方法，这是三维医学图像中最成熟的领域，因为公开的数据集是可用的。早期的肺结节检测器使用机器学习技术和手工特征，如球形滤波器[36，38，4，1]。近年来深度学习的繁荣将现代目标检测的成功带到了医学图像检测领域Ding等[7]建议使用2D Faster R-CNN和3D CNN进行更准确的结节检测。另一条研究路线[20，41，14，19]使用3D区域建议网络[29]或特征金字塔网络[21]来直接检测结节。Pezenshk等人[27]和Liuet al. [23]进一步建议使用另一个网络，然后是3D FPN，以减少误报。半监督学习近年来的研究主要集中在如何将损失项应用于未标记数据以提高泛化能力。伪标签[18]使用具有最高置信度的预测类作为未标记数据的训练标签。模型[17]和Γ-模型[28]使用一致正则化项来惩罚不一致的预字典Tarvainen和Valpola [34]建议使用历史参数的移动平均值来正则化具有“均值教师”的MixMatch [3]和UDA [37]将一致性正则化和现代数据增强技术集成到一个统一的框架中，实现了很大的改进。也有一些作品专注于通过使用具有图像级注释的额外图像来改进检测模型[33，10]。SSL在医学图像处理中的应用由于数据标注的困难，SSL被广泛应用于医学图像处理。Su等人[32]提出了一种利用局部和全局一致性的半监督核分类方法。特征正则化Ganaye等人[9]和Chenet al. [6]还提出了SSL方法，以获得更好的分割结果，在大脑图像。Zhou等[40]通过半监督学习提高疾病分级和病灶分割ASDNet[25]使用基于注意力的半监督学习方法来提高医学图像分割的性能。这些以前的工作也仅限于分类和分割，而本文的重点是在医学成像中更重要和更复杂的任务，病变检测。6. 结论本文讨论了一种新的半监督学习框架，FocalMix，它利用原始医学图像无注释，以提高监督病变检测模型的性能。大量的实验表明，FocalMix可以大大提高全监督学习基线的性能。我们的工作证明了在3D医疗检测任务中利用现代SSL方法的可行性。7. 确认本工作得到国家重点研发计划（ 2018 YFB1402600）、北京国家自然科学基金（L172037）和北京-人工智能学院。3960引用[1] Sheeraz Akram ，Muhammad Younus Javed，M UsmanAkram，Usman Qelman，and Ali Hassan.基于计算机断层图像混合特征的肺结节检测与分类。 Journal ofMedical Imaging and Health Informatics，6（1）：252[2] Samuel G Armato III ， Geoffrey McLennan ， LucBidaut ， Michael F McNitt-Gray ， Charles R Meyer ，Anthony P Reeves，Binsheng Zhao，Denise R Aberle，Claudia I Hen- schke，Eric A Hoffman，et al.肺部图像数据库联盟（lidc）和图像数据库资源倡议（idri）：一个完整的CT扫描肺结节参考数据库。Medical physics，38（2）：915[3] David Berthelot 、 Nicholas Carlini 、 Ian Goodfellow 、Nicolas Papernot 、 Avital Oliver 和 Colin A Raffel 。MixMatch：半监督学习的整体方法In H.瓦拉赫H. Larochelle、A.Be ygelzimer、F.dAlche′-Buc，E.Fox，以及R. Garnett，编辑，神经信息处理系统进展32，第5049-5059页Curran Associates，Inc. 2019.[4] Bin Chen, Takayuki Kitasaka, Hirotoshi Honma, HirotsuguTakabatake, Masaki Mori, Hiroshi Natori, and KensakuMori.基于局部强度结构分析和表面传播的三维胸部ct图像肺血管和结节自动分割。国际计算机辅助放射学和外科杂志，7（3）：465[5] Po-HsuanChen，KrishnaGadepalli，RobertMacDonald ， YunLiu ， KunalNagpal ， TimoKohlberger ， Greg S Corrado ， Ja- son D Hipp ， andMartin C Stumpe. 用于癌症实时自动检测的增强现实显微镜。在《年度报告》中，会议美国癌症研究协会，2018年。[6] ShuaiChen，GerdaBortsova，AntonioGarc'ıa-UcedaJua'rez，Gijs van Tulder，and Marleen de Bruijne.基于多任务注意力的半监督学习医学图像分割。医学影像计算和计算机辅助干预国际会议，第 457-465页。Springer，2019年。[7] Jia Ding，Aoxue Li，Zhiqiang Hu，and Liwei Wang.使用深度卷积神经网络在计算机断层扫描图像中准确检测肺结节。医学图像计算和计算机辅助干预国际会议，第559-567页。Springer，2017.[8] 安德烈·埃斯特瓦，布雷特·库普雷尔，罗伯托·A·诺沃亚，贾斯汀·高，苏珊·M·斯威特，海伦·M·布劳和塞巴斯蒂安·特龙。皮肤科医生级别的皮肤癌分类与深度神经网络。Nature，542（7639）：115，2017.[9] Pierre-An toineGanaye，Micha eülSdika和HuguesBenoit-Cattin。语义约束下的半监督学习分割。医学图像计算和计算机辅助干预国际会议，第595-602页。Springer，2018.[10] Jiyang Gao，Jiang Wang，Shengyang Dai，Li-Jia Li，and Ram Nevatia. NOTE-RCNN：用于半监督对象检测的噪声容忍集成rcnn。InProceedings of theIEEE计算机视觉国际会议，第9508-9517页，2019年。[11] Yves Grandvalet和Yoshua Bengio基于熵最小化的半监督学习。神经信息处理系统的进展，第529-536页，2005年[12] Varun Gulshan ， Lily Peng ， Marc Coram ， Martin CStumpe ， DerekWu ， Arunachalam Narayanaswamy ，Subhashini Venu- gopalan ， Kasumi Widner ， TomMadams，Jorge Cuadros，et al.开发和验证用于检测视网膜眼底照片中糖尿病视网膜病变的深度学习算法。Jama，316（22）：2402[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[14] 纳吉·霍斯拉万和乌拉斯·巴奇。S4ND：单次激发单尺度肺结节检测。医学图像计算和计算机辅助干预国际会议，第794 - 802页。Springer，2018.[15] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。在Yoshua Bengio和Yann LeCun，编辑，第三届学习表征国际会议，ICLR 2015，美国加利福尼亚州圣地亚哥，2015年5月7日至9日，会议跟踪会议，2015年。[16] Alex Krizhevsky，Geoffrey Hinton，等.从微小的图像中学习多层特征。技术报告，多伦多大学，2009年。[17] Samuli Laine和Timo Aila用于半监督学习的时间集成在第五届国际学习代表会议，ICLR 2017，法国土伦，2017年4月24日至26日，会议跟踪程序，2017年。[18] 李东贤伪标签：简单高效的深度神经网络半监督学习方法。在表征学习挑战研讨会，ICML，第3卷，第2页，2013年。[19] 李跃梦，刘航凡，范勇。DeepSEED：用于脉冲结节检测的3D挤压和激励编码器-解码器卷积网络。CoRR，abs/1904.03501，2019。[20] Fangzhou Liao，Ming Liang，Zhe Li，Xiaolin Hu，andSen Song.应用三维深漏噪声-或网络评估肺结节的恶性程度。 IEEE Transactions on Neural Networks andLearning Systems，2019。[21] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉. 用于目标检测的特征

下载后可阅读完整内容，剩余1页未读，立即下载