Graph-BAS3Net：基于边界感知的半监督分割网络

80 浏览量更新于2023-10-14 收藏 26.59MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

73860Graph-BAS3Net：具有双边图卷积的边界感知半监督分割网络0黄慧敏1，*林兰芬1，张悦1，徐颖颖2，1，郑静3，毛雄伟4，钱晓涵3，彭志义3，*周建英3，*陈彦伟5，2，1，童若峰1，201 浙江大学，2 浙江实验室，3 第一附属医院，4 浙江大学医院，5立命館大学0摘要0半监督学习（SSL）算法通过利用未标记数据在医学图像分割中引起了很多关注，这挑战了获取大量像素级注释样本的问题。然而，大多数现有的SSL方法忽视了对象的几何形状约束，导致边界和对象的非平滑性不理想。在本文中，我们提出了一种新颖的基于边界的半监督医学图像分割网络，命名为Graph-BAS3Net，它结合了边界信息，并在图域中学习语义和几何之间的对偶约束。具体而言，所提出的方法由两个组件组成：一个多任务学习框架BAS3Net和一个基于图的跨任务模块BGCM。BAS3Net通过添加边界检测任务改进了现有的基于GAN的SSL方法，从而编码了更丰富的对象形状和表面特征。此外，BGCM进一步探索了语义分割和边界检测任务之间的共现关系，使网络能够从标记和未标记数据中学习更强的语义和几何对应关系。在LiTS数据集和COVID-19数据集上的实验结果证实，我们提出的Graph-BAS3Net在半监督分割任务中优于现有的最先进方法。01. 引言0准确的医学图像分割是许多临床应用的基本前提[19]。最近，已经开发了各种用于分割任务的卷积神经网络（CNNs）。尽管这些方法取得了令人满意的结果，但它们需要大量的像素级注释样本，并且需要在完全监督下进行训练。然而，在医学领域，获得足够的标记数据是困难的。0*通讯作者：林兰芬（llf@zju.edu.cn），周建英（zjyhz@zju.edu.cn），陈彦伟（chen@is.ritsumei.ac.jp）0图1. (a)展示了在LiTS数据集上使用10%标记数据的四种方法的边界结果，其中青色边缘是真实边界，红色边缘是预测结果。(b)展示了四种方法上错误像素的数量（横轴）与它们到边界的欧氏距离（纵轴）之间的关系。我们可以看到，距离较大的像素往往被正确分类，而距离较小的像素（边界像素）有较大的错误。0由于手动注释成本高昂且耗时，因此医学图像分割中的标记数据通常不可用。为了解决这个问题，引入了半监督学习（SSL），它在训练中使用了标记数据和任意数量的未标记数据。最近的SSL研究工作主要集中在将未标记数据纳入训练中，可以分为以下几类：自训练[2, 5]，协同训练[22, 29,35]，基于GAN的方法[10, 14, 21, 33,34]以及自集成（Π模型[12, 16]和Mean-Teacher模型[7,25,31]）。例如，Chen等人[5]提出了一种基于自训练的SSL方法，交替更新未标记数据的分割结果；而Ouali等人[22]通过利用交叉一致性实现了协同训练，从未标记数据中学习了广义特征。Hung等人[10]设计了一种基于GAN的SSL方法，将未标记数据的分割结果强制与标记数据相似。Tarvainen等人[25]提出了一种Mean-Teacher模型来指导学生网络的学习。然而，它们通常忽视了几何信息和/或继承的信息。73870实体语义和几何对应关系导致了对象边界不满意和非平滑，因为结构边界的歧义和异质纹理（见图1(a)）。如图1(b)所示，错误像素的数量随着到边界的距离增加而显著减少。换句话说，边界的准确性对最终的语义分割至关重要，然而在先前的方法中往往忽视了它的重要性。因此，在这项工作中，我们提出了一种新颖的基于图的边界感知半监督分割网络（Graph-BAS 3Net）来解决上述限制。我们的主要思想是在网络中加入边界表示，并在图域中学习语义和边界之间的对偶约束。Graph-BAS 3Net由两个组件组成：（i）边界感知半监督分割网络（BAS3Net），通过将边界检测任务纳入基于GAN的分割框架中，缓解模糊边界问题；（ii）双边图卷积模块（BGCM），对任务之间的对偶约束进行建模，并捕捉非局部区域的长程依赖关系。上述两个组件的设计原理如下所述。首先，考虑到包围掩模的边界编码了更丰富的对象形状和表面特征，我们的BAS 3Net生成器共同预测语义分割和对象边界，并共享编码器。共享编码器鼓励网络提取不同任务的共同特征，从而使网络更紧凑。为了利用无标签数据并学习更多详细的边缘信息，我们引入了一个判别器，用于区分预测的语义分割图和边界检测结果（“fake”）与地面真实标签（“real”）进行半监督学习。通过这种多任务学习方式，语义分割提供了平滑性和连续性约束；而边界检测则强制了全局形状和几何约束。其次，由于两个任务之间存在对偶约束，语义分割和边界检测可以通过相互作用和促进彼此来提高半监督分割的整体性能。基于此，我们设计了BGCM来探索语义分割和边界检测任务之间的共现关系和信息传播。为了有效建立关系，我们利用图卷积[6, 8, 11, 13, 15, 17, 26, 28,32]在两个任务之间和内部任务之间挖掘任务内部和任务间的长程依赖关系。具体而言，任务内部推理可以捕捉非局部区域的长程依赖关系，并在单独的任务中优化视觉特征；而任务间推理可以建模任务之间的相似潜在表示，并以双向方式进行信息传播。0这样，我们的Graph-BAS 3 Net，由骨干BAS 3Net和跨任务模块BGCM组成，可以意识到语义分割和边界检测之间的相互关系，并展现出卓越的性能。本工作的主要贡献有四个方面：（i）我们提出了一种Graph-BAS 3Net，在半监督医学图像分割中强制实施语义和几何约束。它结合了多任务学习框架BAS 3Net和基于图的跨任务模块BGCM之间的推理。（ii）我们设计了BAS 3Net，共同预测语义分割和对象边界，提高了生成器的分割性能，并进一步将边界信息引入判别器。（iii）我们提出了BGCM，通过使用双边图卷积来强制实施语义和边界之间的对偶约束，全局地挖掘任务内部和任务间的关系。（iv）我们在典型的肝脏数据集和更具挑战性的COVID-19数据集上进行了大量实验，证明了所提出的Graph-BAS 3Net优于现有方法。02. 相关工作0语义分割。当前语义分割的最先进方法基于卷积神经网络（CNN）的快速发展，例如FCNs [18]，SegNet[1]，以及为医学图像分割设计的一系列UNet变体[9，23，36]。然而，为了实现高鲁棒性和分割准确性，完全监督的分割方法需要大量的像素级注释数据，这通常是昂贵且复杂的收集。0基于GAN的SSL。SSL方法的开发旨在减少地面真实性标注的工作量，其中基于生成对抗网络（GAN）的SSL表现出渐进性能。Hung等人[10]提出了一种开创性的对抗学习分割网络（ALS-Net）。它将分割网络视为生成器，而鉴别器的目标是区分地面真实性和分割概率图以获得置信度图。Nie等人[21]将ALS-Net扩展到使用基于焦点损失的注意机制分割盆腔图像。Zheng等人[34]提出了一种深度图谱先验，并将其合并到ALS-Net中以进一步提高肝脏分割的性能。然而，这些基于GAN的SSL在器官边界上无法产生可信赖的伪标签，特别是在缺乏足够标记数据时。0通过图卷积网络进行视觉推理。最近，图卷积[11]已被纳入计算机视觉任务中以捕捉长程依赖性，它将特征投影到非坐标空间中。例如，图卷积单元（GCU）[17]通过非线性特征编码方法将具有相似特征的像素分配给同一个顶点；全局推理（GloRe）单元[6]通过通道相似性构建了一个完全连接的图。Te等人[26]进一步将边缘注意力引入到特征投影中，强调边缘像素的特征。考虑到图的相互作用，Wu等人[28]然后挖掘前景对象和背景物体类别之间以及内部的关系进行全景分割。与这些方法不同，我们将图结构引入到半监督医学图像分割的多任务框架中，以全局建模多任务之间的相互关系。In this section, we ﬁrst provide an overview of ourmethod and then present each component in detail.Asseen in Fig.2, Graph-BAS3Net consists of two parts: (i)BAS3Net that improves the existing GAN-based SSL byadding a boundary-aware task and works as a backbone net-work; (ii) BGCM that interacts between tasks to further im-prove the segmentation accuracy.The BAS3Net is composed of three networks: The se-mantic segmentation network (GN s), boundary detectionnetwork (GN b), and discriminator network (DN). Duringtraining, GN s and GN b learn the feature representationsXs and Xb by focusing on the semantics and boundaries,respectively. To explore the mutual information betweentwo tasks, our BGCM ﬁrstly projects Xs and Xb in the co-ordinate domain into the fully-connected graphss andb73880图2. 我们Graph-BAS 3网络的概述。首先，输入图像通过两个网络，语义分割网络和边界检测网络，共享一个编码器。这生成由标记数据的地面真实性监督的粗略结果。然后，BGCM将语义分割和边界检测特征作为输入，并在图形投影、双边图卷积和图形重投影之后输出增强特征。这导致了精细化的语义分割图和边界检测结果。然后将精细化的结果连接起来并输入鉴别器以获得置信度图。0在本节中，我们首先概述我们的方法，然后详细介绍每个组件。如图2所示，Graph-BAS 3 网络由两部分组成：（i）BAS 3网络，通过添加边界感知任务改进现有的基于GAN的SSL，并作为骨干网络工作；（ii）BGCM，在任务之间进行交互以进一步提高分割准确性。BAS 3网络由三个网络组成：语义分割网络（GNs），边界检测网络（GNb）和鉴别器网络（DN）。在训练过程中，GNs和GNb通过分别关注语义和边界来学习特征表示Xs和Xb。为了探索两个任务之间的相互信息，我们的BGCM首先将Xs和Xb在坐标域中投影到完全连接的图Gs和Gb中03. 图形BAS 3 网络0在图形领域中，关系推理可以高效地计算。推理之后，关系感知特征被逆向转换回坐标领域以进行进一步的预处理。0预测。然后将精炼的结果连接并传递给DN，以区分预测结果和地面真值。GN_s、GN_b和DN被设计成以对抗的方式工作，解决标注数据不足和边界模糊的问题。03.1. BAS 3 Net0形式上，令DL = {(Il, Yl)}Nl=1表示有标签的集合，DU ={Iu}N+Mu=N+1表示无标签的集合，其中Yl = �Ysl,Ybl�是从语义真值使用Roberts算子[20]提取的分割真值Ysl和边界真值Ybl。0多任务生成器网络。如图2所示，BAS 3Net的生成器包含两个网络，即GN_s用于语义分割和GN_b用于边界检测，它们共享相同的编码器但具有任务特定的解码器。GN_s使用像素级的语义注释进行训练，并生成粗分割掩模GN_s(I)，而GN_b则优化以预测对象边缘GN_b(I)。具体而言，我们采用DeepLabV2[4]作为GN_s和GN_b共享的编码器。我们还删除了最后的分类层，并将最后两个卷积层的步幅从2修改为1。这将输出特征图的分辨率降低到输入图像大小的1/8。GN_s和GN_b采用相同的解码器结构，但不共享参数。为了扩大感受野，我们在conv4和conv5层中采用了空洞卷积[30]，步幅分别为2和4。我们采用空洞空间金字塔池化（ASPP）[4]来ps = softmax(AvgPool(φs(Xs) ⊙ M s) ⊗ φs(Xs)T )(1)̸Xs = Xs + ψs((ps)T �Hs)(2)H = (Hs)T , (Hb)TT, W = (Ws)T , (Wb)TT(3)Aintra =�As→s00Ab→b�Ainter =�0Ab→sAs→b0�(5)73890融合具有不同感受野的特征。最后，我们应用上采样层将特征图从H/8×W/8×64转换为H×W×64，并应用1×1核大小的卷积作为分类器。0鉴别器网络。BAS 3Net的鉴别器用于区分预测的分割结果和手动标注的标签。我们通过将边界感知检测结果GN_b(I)与语义感知分割图GN_s(I)相结合，将边界信息引入鉴别器网络(DN)。具体而言，它由四个卷积层组成，核大小为3×3，通道数为{16, 32, 64,128}，步幅为2。最后一层还添加了一个反卷积层，将输出重新缩放到输入图像的大小。为了保留更多详细信息，我们将结果与具有输入图像大小的第一编码器层进行连接。然后，应用1×1核大小的卷积作为最终的分类器。03.2. 双边图卷积模块0形式上，我们将图定义为G = (N, A,H)，其中N是节点集合，|N|表示节点数量。邻接矩阵A∈R|N|×|N|描述了边的权重，H∈R|N|×K是图的特征矩阵。我们的BGCM包括三个操作：图投影、双边图推理和图重新投影。具体而言，图投影是将坐标域中的特征图X映射到图域中的一组节点特征H的第一步；而图重新投影是最后一步，最终将更新的图特征H逆向恢复为X。双边图卷积是模拟任务内部和任务间关系并在任务之间扩散信息的关键步骤。03.2.1 图投影和重新投影0我们采用相同的策略来投影和重新投影语义感知图G_s和边界感知图G_b。为了简化，我们以G_s为例。如图3所示，投影中应用了一种注意机制，通过在粗分割掩模M_s(GN_s(I))和X_s之间执行点乘⊙来监视对象部分。点乘将更高的权重分配给属于对象的像素的特征，并抑制非对象区域。在实践中，我们使用卷积φ_s(∙)，其核大小为1×1，将X_s的维度从C降低到L，从而增强了投影过程的能力。下一步是执行平均池化AvgPool(∙)，步幅为s，以获取顶点的锚点。这些锚点代表每个像素区域的中心。我们采用φ_s(X_s)和锚点的乘法�来捕捉锚点与每个像素之间的相似性。投影矩阵的范围为0通过应用 softmax 函数，约束特征图 X s 的投影矩阵 p s 的值在 (0 , 1) 之间：0基于投影矩阵 p s ，特征图 X s0然后将其映射到图域中，如下所示：H s = p s � θ s ( X s )，其中 θ s ( ∙ ) 是一个卷积操作，使用 1 × 1的卷积核进行维度缩减，得到降维后的特征，即 θ s ( X s )∈ R HW × K。投影过程被表述为线性组合，将具有相似特征的像素聚合为一个锚节点。这样就得到了一个语义感知的图特征，H s∈ R HW/s 2 × K。类似地，我们可以得到一个边界感知的图特征 H b。注意，AvgPool ( ∙ ) 中的下采样率 δ 可以与构建 G s时的下采样率（步长 s ）不同，导致 |N s | � = �� N b ��。推理完成后，我们采用线性重投影，给出 � X s = ( p s ) T� H s 。但是，小尺寸的 � X s ∈ R HW × K 与原始特征图 Xs ∈ R HW × C 不一致。因此，我们附加一个 1 × 1的卷积层 ψ s ( ∙ )进行维度扩展，使输出能够无缝匹配输入，形成一个残差路径：03.2.2 双边图推理0给定 G s 和 G b，我们采用图卷积在图上进行信息传播。在本文中，我们使用与 [11 ]中类似的方法来定义图卷积。首先，我们定义双边图的增强形式如下：0其中 H ∈ R ( |N s | + | N b | ) × K ，W ∈ R 2 K × K ′是双边节点特征和权重矩阵的增强形式。W s 和 W b ∈ RK × K ′ 是两个可训练的权重矩阵，分别改变 H s 和 H b的节点维度。我们的双边图卷积不同于 [ 11 ]中的单个图卷积，它通过内部图推理和跨图推理来捕捉两个图之间的共现关系。具体而言，内部图推理模拟了每个图中的非局部依赖关系。这是在语义到语义边 ( A s → s )和边界到边界边 ( A b → b )上进行的。跨图推理探索了图之间的相互关系，因此应用于语义到边界边 ( A s → b ) 和边界到语义边 ( A b → s )上。基于上述内容，本文中的邻接矩阵 A 是内部图矩阵 ( Aintra ) 和跨图矩阵 ( A inter ) 的组合，表示为：aij =exp (δ (W [hi || hj]))z∈Niexp (δ (W [hi || hz]))(6)73900图 3. 双边图卷积模块的架构。0其中 A s → b = � a s → b ij � ∈ R |N s |× | N b | 组装了从G s 的第 j 个节点到 G b 的第 i 个节点的相关权重，A s → s，A b → b ，A b → s 的解释类似。系数 a ij 表示节点 j对节点 i 的重要性，使用注意力机制 [ 27 ]对每对相邻节点进行计算：0其中注意力函数是一个由权重向量 W ∈ R 2 K参数化的单层神经网络，|| 表示连接操作，δ 是 LeakyReLU非线性函数。N i 是节点 i的邻域，包含我们完全连接的图中的所有节点。注意，这里构建的图是有向图，因为学习 a ij 和 a ji 时，权重向量 W是不同的。根据归一化的邻接矩阵 A ，增强的双边节点特征H 和权重矩阵 W ，一个单独的图卷积层被表述为：0� H = F ( H || σ ( A ( H � W ))) (7)0H � W = � ( H s W s ) T , ( H b W b ) T � T (8)0其中F(∙)将原始特征和更新后的特征融合在一起，通过1×1的卷积实现。03.3. 损失函数0在我们的方法中，我们使用五个损失函数来优化Graph-BAS3 Net：L D ，L G − adv ，L G − seg ，L G − det ，L G− semi 。L D是鉴别器网络的二元交叉熵损失，用于区分真实标签和分割图：0L D = − �0H,W (1 − y l ) log � 1 − DN � � GN s ( I l ) || � GN b ( I l ) ��0+ y l log � DN � Y s l || Y b l �� (9)0其中||是连接操作。如果输入是从精化的语义分割图� GN s (I l )和精化的边界检测结果中提取的，则y l = 00� GN b ( I l ) ，而且如果输入与其对应的真实标签Y s l和Y bl相结合，则y l = 1。请注意，未标记的数据不包括在L D的计算中。此外，L G − adv是对抗性损失项，通过最大化生成器生成的概率图被视为真实标签，从而改进生成器并愚弄鉴别器。因此，它强制自动分割与真实标签之间具有更高阶的一致性，其定义为：0L G − adv = − �0H,W log � DN � � GN s ( I l ) || � GN b ( I l ) �� (10)0在我们的方法中，L G − seg是标记数据的分割损失；而L G− det被定义为检测损失。给定输入图像I l，one-hot编码的真实标签Y s l和Y bl，通过以下公式计算二元交叉熵损失：0L G − seg = − �0H,W ( Y s l log ( GN s ( I l ))) + Y s l log � � GN s ( I l ) � (11)0L G − det = − �0H,W � Y b l log � GN b ( I l ) �� + Y b l log � � GN b ( I l ) � (12)0其中GN s ( I l )和GN b ( I l)分别是粗分割掩模和粗边缘掩模。此外，L G − semi是未标记数据I u的半监督损失。借助鉴别器生成的置信度图，我们从掩蔽分割预测中选择部分高置信度像素，这可以被视为未标记数据的真实标签。这个“自学习”过程可以表示为：0L G − semi = − �0H,W ζ � DN � � GN s ( I u ) || � GN b ( I u ) � > T semi �0∙ � Y s u log � � GN s ( I u ) � (13)0其中ζ(∙)是一个指示函数，T semi是控制自学习过程敏感性的阈值。� Y s u = argmax(� GN s (I u ))是一个二值化的分割预测。结合自学习目标� Y s u ，LG − semi可以被视为一个掩蔽的二元交叉熵损失。生成器的最终损失L G 是L G − adv ，L G − seg ，L G − det 和L G − semi的组合：0L G = L G − seg + λ det L G − det + λ semi L G − semi + λ adv L G − adv (14)0其中λ det ，λ semi 和λ adv是平衡多任务训练的约束条件。04. 实验和结果04.1. 数据集0我们在典型的肝脏分割和具有挑战性的COVID-19感染分割上进行了实验验证：（i）LiTS数据集[3]：ISBI LiTS2017挑战数据集包含131个增强腹部扫描。该数据集由来自六个不同临床站点的不同扫描仪获取，具有BAS3Net91.11±0.9116.19±1.5192.65±0.8813.56±1.4794.01±0.7511.27±1.3394.81±0.6710.10±0.9595.23±0.549.38±0.71Graph-BAS3Net93.19±0.9412.69±1.6194.56±0.7710.27±1.3694.97±0.729.83±1.0395.25±0.489.33±0.6095.58±0.448.76±0.49BAS3Net72.98±2.1141.38±2.6274.85±2.8638.82±3.2377.98±2.1435.18±2.6580.28±2.1132.40±2.7080.91±2.1031.65±2.70Graph-BAS3Net74.22±2.6539.97±3.1677.35±2.0436.00±2.4980.23±1.5132.42±1.8981.48±1.8930.84±2.3982.09±1.7629.70±2.4873910LiTS数据集00.1:0.9 0.3:0.7 0.5:0.5 0.7:0.3 1.0:0.0 模型（SSLs）Dice [%] VOE [%] Dice [%] VOE [%] Dice [%] VOE [%] Dice [%] VOE [%] Dice [%] VOE [%]0完全监督 83.87 ± 1 . 71 27.21 ± 2 . 21 88.34 ± 2 . 04 20.51 ± 3 . 18 91.02 ± 2 . 03 16.32 ± 3 . 38 92.35 ± 1 . 58 14.09 ± 2 . 66 93.54 ± 0 . 95 12.10 ± 1 . 680Sedai等人[24] 86.54 ± 1 . 16 23.55 ± 1 . 81 89.02 ± 1 . 55 19.64 ± 2 . 51 91.50 ± 1 . 30 15.51 ± 2 . 19 92.79 ± 1 . 49 13.35 ± 2 . 55 93.35 ± 0 . 98 12.33 ± 1 . 610Ouali等人[22] 89.46 ± 1 . 13 18.96 ± 1 . 87 91.31 ± 1 . 32 15.84 ± 2 . 19 92.81 ± 1 . 04 13.30 ± 1 . 73 93.04 ± 1 . 10 12.93 ± 1 . 89 93.56 ± 0 . 97 12.08 ± 1 . 700Chen等人[5] 87.82 ± 1 . 34 21.53 ± 2 . 12 89.28 ± 1 . 16 19.22 ± 1 . 85 91.88 ± 0 . 66 14.93 ± 1 . 10 93.17 ± 0 . 95 12.61 ± 1 . 75 93.80 ± 1 . 04 11.61 ± 1 . 810Hung等人[10] 88.86 ± 0 . 92 19.90 ± 1 . 48 90.77 ± 1 . 07 16.79 ± 1 . 77 92.16 ± 0 . 82 14.35 ± 1 . 48 93.46 ± 0 . 61 12.18 ± 0 . 95 93.51 ± 1 . 33 12.07 ± 2 . 280Nie等人[21] 89.04 ± 1 . 72 19.54 ± 2 . 79 91.01 ± 1 . 22 16.35 ± 2 . 06 91.96 ± 0 . 93 14.66 ± 1 . 50 93.06 ± 1 . 22 12.91 ± 2 . 11 93.67 ± 0 . 85 11.78 ± 1 . 410Zheng等人[34] 90.18 ± 0 . 98 17.73 ± 1 . 48 91.71 ± 1 . 02 15.21 ± 1 . 73 93.27 ± 0 . 78 12.47 ± 0 . 61 93.89 ± 0 . 81 11.39 ± 1 . 34 94.49 ± 0 . 56 10.42 ± 1 . 010COVID-19数据集0完全监督 65.87 ± 4 . 56 50.25 ± 5 . 61 69.55 ± 3 . 97 45.67 ± 4 . 89 74.88 ± 3 . 35 39.09 ± 4 . 10 77.11 ± 3 . 22 36.33 ± 4 . 15 79.33 ± 2 . 90 33.51 ± 3 . 610Sedai等人[24] 67.09 ± 3 . 21 48.72 ± 3 . 95 71.65 ± 3 . 96 43.03 ± 4 . 91 75.74 ± 3 . 86 37.96 ± 4 . 79 78.55 ± 2 . 54 34.47 ± 3 . 14 79.40 ± 2 . 78 33.54 ± 3 . 580Ouali等人[22] 69.79 ± 3 . 00 45.39 ± 3 . 67 73.05 ± 3 . 05 41.01 ± 3 . 49 76.05 ± 2 . 84 37.72 ± 3 . 54 78.97 ± 2 . 73 33.95 ± 3 . 39 79.33 ± 2 . 90 33.51 ± 3 . 610Chen等人[5] 67.98 ± 3 . 54 47.63 ± 4 . 34 72.31 ± 2 . 99 42.21 ± 3 . 71 76.44 ± 3 . 07 37.11 ± 3 . 81 77.36 ± 2 . 81 36.05 ± 3 . 59 79.74 ± 2 . 81 32.84 ± 3 . 820Hung等人[10] 68.55 ± 2 . 83 46.93 ± 3 . 46 72.33 ± 2 . 67 42.19 ± 3 . 31 76.24 ± 2 . 94 37.29 ± 3 . 61 79.23 ± 2 . 95 33.63 ± 3 . 66 79.60 ± 2 . 73 33.30 ± 3 . 510Nie等人[21] 70.33 ± 2 . 88 44.76 ± 3 . 50 73.36 ± 2 . 69 40.66 ± 3 . 09 76.79 ± 2 . 91 36.76 ± 3 . 71 79.43 ± 2 . 68 33.38 ± 3 . 32 79.98 ± 2 . 60 32.74 ± 3 . 260表1. 我们的方法（用橙色表示）与最先进的半监督方法在两个数据集上的比较。0图4. 在COVID-19数据集上，使用最先进的方法对三个典型示例进行定性比较，其中有10%的标记数据。紫色区域是真正例（TP）；黄色区域是假阴性（FN），绿色区域是假阳性（FP）。0图像的平面分辨率从0.55到1.0毫米不等，切片间距从0.45到6.0毫米不等。图像分辨率相对较高，为512×512。数据集还包括103个训练卷和28个测试卷。我们将这103个训练样本随机分成训练集和验证集，比例为3:1。为了消除随机性的影响，我们进行了两次分割操作。超参数优化和网络开发是在验证集上进行的。（ii）COVID-19数据集：我们从第一附属医院收集了102个COVID-19CT扫描。左肺、右肺和感染部位由两位拥有5年胸部放射学经验的放射科医生进行了标注。每个案例的切片平面分辨率为512×512，并以1.0×1.0×1.0毫米3的相同间距重新采样。为了减少随机性，数据集被随机分成训练集、验证集和测试集，比例为3:1:1，进行了两次。04.2. 实现细节0为了更新语义分割和边界检测网络的参数，我们采用了随机梯度下降法0ent Descent.这里动量设置为0.9，权重衰减设置为1e-4。初始学习率为1e-3，按照0.9的多项式衰减进行降低。至于鉴别器，我们使用Adam优化器，学习率为1e-4，同样进行多项式衰减。beta值设置为0.9和0.999。我们在LiTS数据集和COVID-19数据集上进行了150k次迭代的模型训练，批量大小为3。为了捕捉沿z轴的空间上下文，输入图像由三个切片组成：待分割的切片、上方和下方的切片，大小调整为320×320×3。我们的结果表明，BAS 3Net在预训练的语义分割和边界检测网络上更加稳定。因此，我们首先使用标记数据以完全监督的方式对两个网络进行了10k次迭代的预训练。然后，鉴别器网络加入了优化过程，并使用标记数据进行更新。在训练了20k次迭代后，开始进行半监督学习以消除噪声预测。为了确保评估的稳健性，我们使用了两个随机种子来采样标记和未标记的数据，并得到了这些数据的平均值。100%000N/A93.540.500N/A94.061.000N/A94.73100%1.00.0010N/A95.471.00.0050N/A95.581.00.050N/A95.0310%1.00.0050N/A89.541.00.0050.0050.292.471.00.0050.010.292.991.00.0050.020.292.6010%1.00.0050.01092.241.00.0050.010.292.991.00.0050.010.393.191.00.0050.010.592.951.00.0050.011.091.812√√86.433√√√89.564√√√91.1173920图5. LiTS数据集上图形节点数量（a）和特征维度（b）的超参数在完全监督模式下的比较04.3. 与现有技术方法的比较0在表1中，我们将我们的方法与其他半监督的现有技术方法进行了比较。与基于GAN的SSL方法[10, 21,34]不同，Chen等人[5]训练了一个自编码器来重建由注意机制创建的合成分割标签。Sedai等人[24]通过使用蒙特卡洛（MC）dropout提出了一种基于不确定性引导的医学图像分割SSL；而Ouali等人[22]提出了一种基于交叉一致性的语义分割SSL。需要注意的是，郑等人提出的atlas-prior方法[34]在COVID-19感染中很难实现，因为其姿势和形状变化很大。为了公平比较，我们在这些方法中使用了相同的DeepLabV2[4]骨干网络。我们随机采样了10％、30％、50％、70％、100％的图像作为标记数据，并将其余的训练图像作为未标记数据。与仅使用标记数据进行训练的完全监督模式相比（显示在第一行），增量改进来自于未标记数据的使用。此外，我们的Graph-BAS 3Net在两个数据集上都优于其他方法，尤其是在标记数据较少的情况下。04.4. 超参数分析0图形节点数量和特征维度的超参数。在这里，我们首先研究了节点数量|N s |和边界数量|N b|对性能的影响。实验是在LiTS数据集上使用100％的标记数据进行的。需要注意的是，我们在这个分析中将节点特征维度设置为32，即K =32。如图6（a）所示，当增加边界数量|N b|时，准确性得到了改善。这是因为边界是可变的，需要更多的锚点。通过将|N b |固定为256，可以看到当|N s | =64时准确性最高。然而，增加|N s|可能会破坏整体语义表示并增加计算复杂性。因此，我们选择了|N s | = 64和|N b | =256，这在合理的计算成本内提供了最佳结果。在节点数量的实验之后，节点特征维度K也在类似的实验设置中进行了变化。我们将|N s |设置为64，|N b | =256，以评估K的影响，K的取值范围从8到32。如图6（b）所示，通过减小K可以提高准确性。0标记的λ det λ adv λ semi T semi Dice [%]0表2. Graph-BAS 3 Net架构中λ det，λ adv，λ semi和Tsemi的超参数。实验在LiTS数据集上进行，采用全监督/半监督设置。0# GN s GN b DN Dice [%] GN s ( I l ) GN s ( I l ) || GNb ( I l )0表3. 在LiTS数据集上使用10%标记数据的BAS 3Net消融实验（无BGCM）。0特征的维度，最佳值为K =16。因此，在我们的实验中选择K = 16。0λ det，λ adv，λ semi和Tsemi的超参数。实验在LiTS数据集上以全监督模式（100%标记数据）和半监督模式（10%标记数据）进行。我们首先在全监督模式下评估了λ det的效果，在λ det =1.0时达到最佳效果。这表明边界检测任务与语义分割任务同等重要。其次，我们在全监督设置下比较了不同λadv的值。总体而言，λadv的中等值0.005取得了最佳性能。我们进一步检查了半监督模式下不同λ semi的值，并将Tsemi设置为0.2进行比较。如表2所示，λ semi =0.01时方法表现最佳。基于以上分析，我们还研究了Tsemi的选择对性能的影响，并观察到T semi =0.3时取得了最佳性能。04.5. 消融研究0BAS 3Net消融实验。表3展示了在LiTS数据集上使用10%标记数据的分割准确率，其中逐步添加了语义分割的组件。2√√91.783√√92.564√√91.515√√91.826√√√√92.277√√√√92.828√√√√√93.1973930# BAS 3 Net G s构建 G b构建推理方向 Dice [%] w/o seg map seg map w/o edge map edge map G s → G b G b → G s0表4. 在LiTS数据集上使用10%标记数据的BGCM消融实验。0图6.在LiTS数据集上解释两个图投影。每个块中的左侧行表示带有红色矩形标记的输入图像，右侧可视化了与锚点的响应图。较深的颜色表示较高的响应。0引入边界检测网络（GN b）对分割网络（GNs）的影响。首先，我们检查了引入边界检测网络（GNb）的影响，准确率从83.87%提高到86.43%。这表明边缘信息在分割中起到了重要作用。通过将边界检测结果GNb（I）与GNs相结合，准确率从89.56%提高到91.11%，这有助于鉴别器专注于边缘部分。0BGCM消融实验。为了验证提出的BGCM的有效性，我们考虑了不同的图构建和推

下载后可阅读完整内容，剩余1页未读，立即下载