可迁移的弱监督内窥镜病变分割

8 浏览量更新于2023-10-12 收藏 12.46MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

{dongjiahua, houdongdong}@sia.cn{congyan12}@gmai107120可迁移的弱监督内窥镜病变分割0董佳华1,2,3，丛阳1,2*，孙淦1,2,3†，侯东东1,2,301 中国科学院沈阳自动化研究所机器人学国家重点实验室，中国沈阳，11001602 中国科学院机器人与智能制造研究所，中国沈阳，110016 3中国科学院大学，中国北京，1000490摘要0基于图像级标签的弱监督学习已广泛应用于医学病变区域的语义分割。然而，现有的大多数模型依赖于有效的约束来探索病变的内部表示，这只能产生不准确和粗糙的病变区域；它们忽略了目标病变数据集（如肠镜图像）与经过良好注释的源疾病数据集（如胃镜图像）之间的强概率依赖关系。为了更好地利用这些依赖关系，我们提出了一种新的弱监督内窥镜病变分割语义表示转移模型，它可以利用相关的全标记疾病分割任务中的有用知识来增强目标弱标记病变分割任务的性能。具体而言，我们提出了一个伪标签生成器，利用种子信息生成高置信度的伪像素标签，同时结合类平衡和超像素空间先验。它可以将更多难以转移的样本从弱标记的目标数据集迭代地加入到训练集中。此外，通过累积先前学习的特征，对不同数据集中同一类别的特征中心进行动态搜索和对齐。同时，本文还采用对抗性学习，缩小输出空间中不同数据集之间的病变差距。最后，我们建立了一个新的医学内窥镜数据集，收集了来自1100多名志愿者的3659张图像。对我们收集的数据集和几个基准数据集进行了大量实验证明了我们模型的有效性。0*通讯作者：丛阳教授†共同贡献作者：孙淦‡本工作得到国家自然科学基金（61821005，61722311，U1613214，61533015）和辽宁振兴人才计划（XLYC1807053）的支持。022 24 25 4 6 5 6 2 7 4 6 4 810 11 12 13 4 15 2 16 2022 23 4 12 8 11 22 24 25 4 6 5 6 2 7 46 4 8 26 2 13 3 4 16 15 2 16 20图1：我们的语义病变表示转移模型的示意图，左右两幅图像分别来自胃镜和肠镜数据集。我们的模型通过伪像素标签和动态搜索的特征中心（即不同形状）学习源数据到目标数据的语义可迁移知识。01. 引言0弱监督学习[19,38]专注于学习仅具有弱标记（图像级别）注释的医学图像的像素级病变分割模型。由于对大规模、高质量的像素级标注的要求较低，它已经在许多医学诊断任务中得到广泛探索，例如自动青光眼检测[43]、胸部疾病定位[39]、组织病理学分割[19]等。然而，弱监督学习对于语义病变分割来说是一个巨大的挑战，因为：1）需要有效的约束或领域专业知识来学习与图像级别注释相关的内部表示，这可能会产生不准确和粗糙的病变区域；2）它忽略了目标病变分割任务与已经注释的源疾病之间的强概率依赖关系，这些依赖关系被视为语义知识。例如，通过胃镜和肠镜检测到的疾病往往具有相似的外观。107130并且进一步具有类似的先验分布。基于这种依赖关系，本文探讨了如何将语义知识从密切相关的完全注释的源数据集（例如胃镜图像）转移到弱标记的目标数据集（例如肠镜图像）。为了利用可转移的语义知识，我们提出了一种新的弱监督语义病变表示转移模型，如图1所示，其目标是从完全标记的源疾病数据集中学习可转移的语义知识，以提高目标弱标记病变分割任务的分割性能。我们模型的核心思想是伪像素标签生成器，它可以利用种子信息，通过将类别平衡与超像素先验[1]相结合，进一步防止易于转移类别的主导地位。难以转移的样本可以逐步从目标数据集引入到训练集中。然后，为了减轻源数据集和目标数据集中同一类别之间的映射特征差距，我们努力通过对动态搜索的特征中心进行对齐来学习可转移的知识，这些特征中心是根据先前学习的特征和高置信度的伪标签逐渐计算出来的。同时，我们在输出空间中利用对抗学习来推动源数据集和目标数据集的分割输出共享更接近的全局分布。最后，我们在我们构建的医学内窥镜数据集和几个基准数据集上进行实验证明了我们模型的优越性。实验结果可以有力地支持我们提出的模型的有效性。我们的工作贡献如下：•我们为弱监督病变分割开发了一种新的语义病变表示转移模型。据我们所知，这是医学图像分析领域中关于内窥镜病变语义转移的较早探索。•提出了一种伪像素标签生成器，逐步挖掘更高置信度的伪标签，它不仅可以将目标数据集中更难转移的样本包括到训练集中，还可以实现与超像素先验的类别平衡。•构建了一个新的医学内窥镜数据集，包括来自1100多名志愿者的3659张图像。我们在我们的内窥镜数据集和几个基准数据集上证明了我们模型的有效性。02. 相关工作0在本节中，我们讨论了一些关于语义病变分割和语义表示转移的代表性相关工作。语义病变分割：计算机辅助诊断（CAD）[31，9，37，7]是为了辅助临床医生而开发的。0传统方法依赖于领域专家手工设计的局部图像特征[18,6]。为了进一步提高分割质量，提出了大多数基于卷积神经网络[14,32,4]的先进方法[28,20,10]，可以实现最先进的性能，但需要大量的像素级注释。因此，提出了弱监督语义病变分割方法[19,38]来节省注释工作。然而，仅使用图像标签训练的模型与使用像素注释训练的模型之间仍存在较大的分割性能差距。语义知识转移：通过生成对抗网络[13]从源数据集到目标数据集学习用于分类任务的语义可转移表示已经得到广泛探索[23,34,35,24,15]。正如[42]所指出的，解决分类转移的方法在语义分割任务中效果不佳，这仍然是一个重要挑战。最近，Bousmalis等人[2]提出了通过将源图像转移到目标数据集来学习可转移知识的方法。[42]利用课程学习方法来减轻源数据集和目标数据集之间的差距。几项研究[16,5,15,12,33]专注于在特征空间中使用对抗学习进行语义分割转移。[17]引入了一个额外的生成器，以目标数据集的额外辅助信息为条件。[44]利用自训练策略进行语义表示转移。然而，现有模型不能直接应用于语义病变转移，因为：1）它们无法确保不同数据集中同一类别的特征映射在附近，因为目标样本的标签信息无效；2）该模型倾向于转移一些易于学习的类别，而不是平衡所有类别。因此，我们专注于通过高置信度的类别平衡伪标签和动态搜索的特征中心以及先前学习的经验来学习语义可转移知识。03. 提出的模型0在本节中，我们对我们的语义病变表示转移模型进行简要概述。然后，详细介绍模型的构建、训练和测试过程。03.1. 我们提出的模型概述0我们模型的概述架构如图2所示。两个标记为S1和S2的子网络分别用于分类和分割任务，其中子网络S2的预测通过卷积操作通过分类概率进行了改进，如图2的虚线箭头所示。假设源数据集（例如，胃镜图像）和目标数据集（例如，肠镜图像）分别表示为Xs和Xt。我们首先将源数据集Xs的图像xsi转发到优化整个网络（不包括鉴别器D）。然后，通过子网络S2预测目标数据集Xt的图像xtj的分割输出。由于我们的目标是鼓励源数据集Xs和目标数据集Xt的分割输出共享更接近的分布，鉴别器D将这两个预测作为输入来区分输入是来自Xs还是Xt。尽管我们采用生成对抗目标来缩小Xs和Xt之间分割输出的差距，但它不能确保不同数据集（即Xs和Xt）中相同类别的特征被映射到附近。受到这一关键观察的启发，我们努力通过对齐每个类别的特征中心来学习语义表示转移。然而，我们没有像素注释来计算目标数据集Xt的中心点。为了解决这个问题，我们提出了一种新的方法来生成伪像素标签，该方法考虑了类别平衡和超像素分割先验。基于目标数据集的伪标签，我们利用基于先前学习经验的指数加权特征来计算每个类别的语义中心。此外，将分配了伪像素标签的目标图像xtj转发到我们的模型中，以微调整个网络。��! " "'��()��#�*(��+(��,-.��+(��00��'��()��'��(�� !2��(*(��(��$��3�� "2�'��(��$��3��42�4(��(�(��L =LC(Xs, Xt) + LS(Xs, Xt) + ηLD(Xs, Xt)+ µLSRT (Xs, Xt),(1)LC(Xs, Xt) =E(xsi ,ysci )∈Xs�J(S1(xsi, θS1), ysci )�+E(xtj,ytcj )∈Xt�J(S1(xtj, θS1), ytcj )�,(2)LS(Xs,Xt)=E(xsi ,yssi )∈Xs�−|xsi |�a=1(yssia)⊤ log(S2(xsi, θS2)a)�+Extj∈Xt�−|xtj|�b=1(ˆytsjb)⊤ log(S2(xtj, θS2)b)+λ��ˆytsjb��1�,s.t., ˆytsjb ∈�{ek|ek ∈ RK} ∪ 0�, ∀b = 1, . . . |xtj|,(3)107140图2：我们提出的模型框架，我们的模型包括ResNet-50网络用于特征提取，对抗学习用于强制各种病变分割共享更接近的分布，伪标签生成器用于弱标记的肠镜数据集，语义表示转移损失LSRT用于对齐源数据集和目标数据集的特征中心，以及两个子网络S1和S2，分别用于分类LC和分割LS。0源数据集（例如，胃镜图像）和目标数据集（例如，肠镜图像）分别表示为 Xs = { (xsi, ysci, yssi) } nsi = 1 和 Xt = {(xtj, ytcj) } ntj = 1，其中ysci和yssi是xsi的相应图像和像素注释，ytcj是xtj的相应图像注释。我们首先将源数据集Xs的图像xsi转发到优化整个网络（不包括鉴别器D）。然后，通过子网络S2预测目标数据集Xt的图像xtj的分割输出。由于我们的目标是鼓励源数据集Xs和目标数据集Xt的分割输出共享更接近的分布，鉴别器D将这两个预测作为输入来区分输入是来自Xs还是Xt。尽管我们采用生成对抗目标来缩小Xs和Xt之间分割输出的差距，但它不能确保不同数据集（即Xs和Xt）中相同类别的特征被映射到附近。受到这一关键观察的启发，我们努力通过对齐每个类别的特征中心来学习语义表示转移。然而，我们没有像素注释来计算目标数据集Xt的中心点。为了解决这个问题，我们提出了一种新的方法来生成伪像素标签，该方法考虑了类别平衡和超像素分割先验。基于目标数据集的伪标签，我们利用基于先前学习经验的指数加权特征来计算每个类别的语义中心。此外，将分配了伪像素标签的目标图像xtj转发到我们的模型中，以微调整个网络。03.2. 模型制定0为了学习目标疾病分割任务的可转移知识，我们将提出的模型制定为以下目标：0其中，η ≥ 0 和 µ ≥ 0是权衡参数，每个损失函数的定义如下：分类损失 L C ( X s, X t )：L C ( X s , X t )表示目标和源数据集（例如，胃镜和肠镜数据集）的分类损失。子网络 S 1 通过损失函数 L C ( X s , X t )来判断输入图像是否有病变：0其中，θ S 1 表示子网络 S 1 的参数。S 1 ( x s i , θ S 1 ) 和S 1 ( x t j , θ S 1 ) 分别是源数据集和目标数据集的分类softmax 输出，J ( ., . ) 是典型的交叉熵损失。分割损失 L S( X s , X t )：对于具有 softmax 输出的子网络 S 2，L S ( Xs , X t ) 可以被形式化为数据集 X s的分割损失，其中包含有监督的像素注释 y ssi，以及数据集 X t 的伪像素标签 ˆ y tsj。它可以被表示为：0其中，θ S 2 表示 S 2 的参数，S 2 ( x s i , θ S 2 ) a 和 S 2 (x t j , θ S 2 ) b 分别是子网络 S 2 在像素 a（a = 1, 2, ..., | xs i |）和 b（b = 1, 2, ..., �� x t j ��）处的分割 softmax 输出。yss ia 表示图像 x s i 中第 a 个像素位置的真实标签的one-hot 编码，而 ˆ y ts jb 是图像 x t j 中第 b个像素位置的伪标签。minˆytsjbExtj�−|xtj|�b=1K�k=1(ˆytsjb)k log(S2(xtj, θS2)b) + λk��ˆytsjb��1�,s.t., ˆytsjb = [(ˆytsjb)1, ..., (ˆytsjb)K] ∈�{ek|ek ∈ RK} ∪ 0�,(4)(5)107150K 和 e k 分别是类别数和 one-hot向量。注意，在训练过程中，将 ˆ y ts jb 分配为 0可以忽略该伪像素标签。因此，我们期望对 ˆ y ts j 进行 ℓ 1-范数正则化，以作为负稀疏约束，防止忽略所有伪像素标签的平凡解。λ ≥ 0是一个全局权重，用于控制所选伪标签的数量，较大的 λ可以促进选择更多的伪标签进行模型训练。类似于自适应学习 [21]，我们模型中的 Eq. (3)可以迭代产生与高置信度相对应的伪像素标签。然而，Eq.(3) 中第二项的优化可能导致两个问题：(i)我们的模型倾向于偏向于最初容易学习的类别，并在训练过程中忽略其他难以转移的类别；(ii)生成的伪标签具有高置信度分数，但在空间上是离散的。为了解决问题 (i)，可以将 Eq. (3) 中的第二项形式化为 Eq.(4)，其中对类别的置信度水平进行了归一化。0其中，λ k ( k = 1 , 2 , ..., K ) 是确定每个类别 k生成的伪标签比例的类别平衡参数。为了避免大量像素类别的主导，我们开发了一种新的方法来确定 λ k，如算法 1所总结的：在获得所有目标图像的每个像素的最大预测概率M j 后，我们对预测为类别 k的所有像素的概率进行排序。当 e − λ k 等于排名在 (1 − p)length( SM k ) 处的概率时，可以确定 λ k 的值。p 的值从25% 开始，并在每个训练时期经验性地增加 5%，最大比例p 设置为 55%。此外，Eq. (4) 的最优解为：0(ˆytsjb)k=01，如果k=argmaxk0S2(xtj,θS2)b0e−λk和0S2(xtj,θS2)b>e−λk，00，否则。0为了解决问题（ii），可以使用由公式（5）产生的伪标签通过超像素空间先验[1]进行改进，以确保生成的伪标签的空间连续性。此外，算法2介绍了如何为伪标签ˆytsj的分配应用超像素空间细化的详细信息：对于每个目标图像xtj应用超像素先验Stj。当在其8个邻域中具有相同空间先验的（h，w）像素没有有效的伪标签时，可以通过对其8个邻域的伪标签进行投票来决定其像素标签。0算法1：确定公式（4）中的λk0输入：子网S2，类别数K，选择的伪标签比例p，目标图像xtj∈Xt；输出：λk 1：对于j=1，...，|Xt|，进行以下操作02：设置MPk=�；3：Lj=argmax(S2(xtj,θS2)，axis=3)；4：Mj=max(S2(xtj,θS2)，axis=3)；5：对于k=1，...，K，进行以下操作6：Mkj=Mj(Lj==k)；07：MPk=[MPk，matrix tovector(Mkj)]；8：end for 9：end for010：对于k=1，...，K，进行以下操作11：SMk=sorting(MPk，ascending)；12：Tk=(1−p)length(SMk)；13：λk=−log(SMk[Tk]) 14：end for return λk；0对抗损失LD(Xs，Xt)：为了使Xs和Xt之间的病变分割输出具有相似的分布，本文利用生成对抗目标LD(Xs，Xt)。图2中的判别器D将子网S2的这两个分割softmax输出作为输入，以区分输入是来自Xs还是Xt，而S2被训练成欺骗D。形式上，可以定义为：0LD(Xs,Xt)=Extj∈Xt[log(D(S2(xtj,θS2),θD))]0+对于Xs中的每个xsi，Exsi∈Xs[log(1−D(S2(xsi,θS2),θD))]，(6)0其中D(S2(xsi,θS2),θD)和D(S2(xtj,θS2),θD)分别表示判别器D对图像xsi和xtj的输出，θD表示判别器D的参数。语义转移LSRT(Xs,Xt)：为了确保不同数据集Xs和Xt中相同类别的特征具有相似的稀疏性质，我们利用公式（7）的第二项。具体来说，受强化学习中的指数奖励设计的启发[22，25]，我们提出了一种基于指数加权先前学习特征的历史学习经验的新方法来搜索每个类别的质心。此外，伪标签0为了通过特征质心对齐进行语义表示转移，提出了LSRT（Xs，Xt），可以定义为：0LSRT(Xs,Xt)=0K个0k=10||Csk−Ctk||22+α||Csk−Ctk||1，(7)0其中Csk和Ctk分别是数据集Xs和Xt中类别k的质心。α≥0是一个权衡参数。考虑到不同数据集中相同类别的质心具有类似的稀疏性质，我们利用公式（7）的第二项。具体来说，受强化学习中的指数奖励设计的启发[22，25]，我们提出了一种基于指数加权先前学习特征的历史学习经验的新方法来搜索每个类别的质心。此外，伪107160算法2：确定最终的伪像素标签0输入：肠镜图像xtj∈Xt，图像xtj的宽度W和高度H，类别数K；输出：伪标签ˆytsj；01：通过算法1解决λk；2：对于j=1，...，|Xt|，计算通过公式（5）计算初始伪标签ˆytsj；3：计算xtj的超像素分割先验Stj；4：对于h=1，...，H，w=1，...，W，设置Chw=�；07: 如果ˆ y ts j在(h, w)像素位置没有伪标签，则执行以下操作：8:对于 k = 1, . . . , K，执行以下操作：09: C k hw = h +1 求和0x = h − 10y = w − 1 1 / ((ˆ y ts j) xy = k) &((S t j) hw = (S t j) xy)；010: C hw = [C hw, C k hw]；011: 结束循环；12: N k = argmax(C hw,axis = 0)；13: 如果 C hw [N k] >4，则执行以下操作：14: (ˆ y ts j) hw = Nk；15: 结束循环；16: 结束循环。017: 结束循环，返回最终的伪标签ˆ y ts j for x tj；18: 结束循环。0通过算法2生成的伪标签用于指导数据集Xt的语义对齐。计算每个类别的质心的详细过程在算法3中展示。我们提出通过重新排序先前学习到的经验来对齐质心，以克服两个实际限制：1）每个批次中的分类信息通常不足，例如，当前训练批次中可能缺少某些类别，因为样本是随机选择的；2）如果批次大小较小，即使一个错误的伪标签也会导致真实质心和伪标签质心之间的巨大偏差。03.3. 网络架构的细节0基线，子网络S 1和S2：我们使用基于ResNet-50的DeepLab-v3[4]架构作为骨干网络，该网络使用ImageNet[11]进行预训练。对于ResNet-50[14]，我们移除了最后的分类层，并将最后两个卷积块的步长从2修改为1，以获得更高维度的输出。此外，最后一个卷积块中使用了三个扩张卷积滤波器，步长为{1, 2,4}，以扩大感受野。如图2所示，基线ResNet-50生成的输出特征图通过子网络S1进行图像分类。它也被传递到子网络S2进行像素分割，其中包含一个Atrous Spatial PyramidPooling（ASPP）[3]块和一个像素分类器层。0算法3 优化语义表示迁移损失0输入：最大迭代次数N，类别数K，源图像X s和目标图像Xt的每个类别k的特征质心{C s k} K k = 1和{C t k} K k =1；输出：L SRT(X s, X t)；01: 对于 n = 1, . . . , N，执行以下操作：2: L SRT(X s, X t) = 0；3: 从 X s 和 X t中随机采样得到 (x s i, y ss i), (x t j)；4: 通过算法2生成伪标签ˆ y ts j；5: 通过子网络S2提取像素特征图F s i和F t j，其中 x s i ∈ X s，x t j ∈ X t。06: 对于 k = 1, . . . , K，执行以下操作：07: C sn k = 1 / | x s i |0| x s0a =1 ( F s i ) a 1 ( y ss = k；08: C tn k = 1 / | x t j |0| x t0b = 1 (F t j) b 1 (ˆ y09: C s k = 求和 n x =1 C sx k ∙ γ n − x；（指数加权）010: C t k = 求和 n x = 1 C tx k ∙ γ n −x；（指数加权）11: 结束循环；12: 返回L SRT(X s, Xt)；13: 结束循环。0鉴别器（D）：受[26]启发，对于鉴别器D，我们采用全卷积网络来保留全局信息，与多层感知机相比。它由5个步长为2、核大小为3的卷积层组成。更详细地说，5个卷积滤波器的通道分别为{16, 32, 64, 64,1}。除了最后一层卷积层外，每个滤波器的激活函数都是带有参数0.2的Leaky RELU。03.4. 训练和测试0训练：在每个训练步骤中，对于损失函数L C(X s, X t)和LS(X s, X t)，我们首先将源图像x si（例如，胃镜）与图像级标签y sc i和像素级注释y ssi一起输入网络，并生成分割的softmax输出S 2(x s i, θ S2)。然后，我们仅使用图像级标签y tc j将目标图像x tj（例如，肠镜）输入网络，通过算法2生成最终的伪像素标签ˆ y tsj。此外，这两个分割输出也会传递给鉴别器D来优化L D(Xs, X t)。对于训练目标L SRT(X s, Xt)，通过算法3计算每个类别k的源图像和目标图像的质心C sk和C tk，该算法依赖于先前学习到的特征。测试：在测试阶段，目标图像x tj（例如，肠镜）通过特征提取器ResNet-50，后跟子网络S1和S2进行分类和分割。鉴别器D和其他算法设计将不参与。至于实现细节，我们使用一块具有12GB内存的Titan XPGPU进行训练。107170指标基准[4] CDWS[19] NMD[5] Wild[16] DFN[40] LtA[33] CGAN[17] 我们的模型0IoU n（%）75.13 25.11 81.10 81.58 81.33 81.73 80.32 84.760IoU d（%）33.24 15.51 36.85 38.59 37.50 41.10 41.33 43.160mIoU（%）54.19 20.31 58.97 60.09 59.41 61.42 60.82 63.960表1：我们的模型与现有技术在我们的医学数据集上的性能比较。性能最好的模型以粗体显示。0优化器用于以批量大小为4训练整个网络。初始学习率设置为1.0×10−4，指数衰减率和步长分别为0.7和950。04. 实验0在本节中，我们详细描述了我们构建的数据集，并且源代码和构建的数据集可以在http://ai.sia.cn/lwfb/上获得。尽管我们的模型主要设计用于医学图像分析，但我们还进行了在其他基准数据集上的实验，以验证其泛化性能。04.1. 数据集和评估0我们实验中的数据集包括我们自己的医学数据集和三个基准数据集。医学内窥镜数据集：该数据集由我们自己构建，共有3659张图像，收集自1100多名志愿者，包括胃炎、息肉、癌症、出血和溃疡等各种病变。具体而言，它包含2969张胃镜图像和690张肠镜图像。在训练阶段，我们将胃镜图像作为源数据集，其中2400张图像具有图像级标签，569张图像既具有图像级标签又具有像素级注释；肠镜图像被视为目标数据集，其中300张图像具有图像级标签。在测试阶段，其他390张肠镜图像用于评估性能。Cityscapes[8]是一个关于城市街景的真实世界数据集，收集于50个城市。它由三个不相交的子集组成：训练子集包含2993张图像，验证子集包含503张图像，测试子集包含1531张图像。数据集中总共有34个不同的类别。GTA[27]包含24996张合成街景图像，这些图像是基于洛杉矶市的真实电脑游戏《侠盗猎车手V》收集的。分割注释与Cityscapes数据集[8]兼容。SYNTHIA[29]是一个大型的合成数据集，其图像是在虚拟城市中收集的，与任何真实城市都没有对应关系。对于实验，我们使用其子集SYNTHIA-RANDCITYSCAPES，其中包含9400张图像，包括12个自动注释的对象类别和一些未命名的类别。对于评估，我们使用交并比（IoU）0作为基本指标。此外，还使用了三个衍生指标，即正常区域的IoU（IoU n），疾病区域的IoU（IoUd）和平均IoU（mIoU）。相应指标越大，相应模型的性能越好。04.2. 医学内窥镜数据集上的实验0在本小节中，我们通过将其与我们构建的医学数据集上的几种现有技术进行比较，验证了我们模型的优越性：•基准（BL）模型利用DeepLab-v3[4]作为分割的骨干网络，没有语义转换。•受约束的弱监督深度学习（CDWS）[19]通过应用区域约束来利用弱监督进行多尺度学习。•无歧视性（NMD）[5]通过利用软伪标签和静态对象先验进行多类别自适应来改进分割模块。•野外中的FCNs（Wild）[16]设计了一个对抗性损失，并在像素级输出上施加先验约束，以优化中间卷积层。•判别特征网络（DFN）[40]设计了平滑网络和边界网络，以学习判别性语义特征。•学习适应（LtA）[33]在语义分割的背景下利用多级适应。•条件GAN（CGAN）[17]提出将条件GAN集成到分割网络中进行特征空间适应。为了公平比较，我们在这个实验中使用ResNet-50[14]作为骨干架构，并添加了一个额外的分类头来改进分割。我们的模型与现有技术的评估结果如表1所示。如表1所示，我们有以下观察结果：1）与现有技术[33，17]相比，我们提出的模型的性能优于它们2.54％〜3.14％，这验证了我们模型的有效性，即伪标签生成器可以挖掘出更准确和高度自信的伪标签。2）对于mIoU，所有具有语义转换的模型[5，16，40，33，17]优于没有语义转换的模型[4，19]。消融研究：为了验证我们模型的不同组件的有效性，我们还在我们的医学数据集上进行了不同组件消融的实验，即基线网络DeepLab-v3（BL），对抗学习（AL），伪标签（PL）和语义表示转换（SRT）。如表2所示的结果��107180图3：使用t-SNE[36]可视化学习到的表示，其中蓝色和红色点分别代表源胃镜样本和目标肠镜样本。两个分离的聚类表示两个类别，即病变和正常。0指标 BL BL+AL BL+AL+PL BL+AL+SRT BL+PL+SRT Ours Ours-woPL Ours-woCB Ours-woSP0IoU n（%）75.13 79.81 83.08 81.71 84.38 84.76 81.71 84.08 84.220IoU d（%）33.24 39.27 41.07 41.27 43.33 43.16 41.27 40.51 42.370mIoU（%）54.19 59.54 62.07 61.49 63.58 63.96 61.69 62.29 63.300表2：我们模型在医学数据集上的消融研究和不同伪标签设计，使用基线网络DeepLab-v3[4]（BL），对抗学习（AL），伪标签（PL），语义表示转移（SRT）以及训练不使用伪标签（Ours-woPL），类别平衡（Ours-woCB）或超像素空间先验（Ours-woSP）。0我们可以观察到，当一个或多个组件被移除时，性能会下降，例如，在删除伪标签选择或语义表示转移后，性能在mIoU方面下降了0.38%�4.42%。此外，我们还在图3中展示了学习到的可迁移表示。请注意，与基准模型（图3（a））和对抗学习（图3（b））相比，我们的模型可以在学习过程中将不同数据集中同一类别的特征映射到附近，这验证了高置信度的伪像素标签和先前学习的特征可以进一步提高肠镜病变分割的性能。伪标签选择的影响：我们打算研究不同的伪标签选择设计如何影响我们模型的性能，即训练不使用伪标签（表示为Ours-woPL），训练不使用类别平衡（表示为Ours-woCB）和训练不使用超像素空间先验（表示为Ours-woSP）。如表2所示的结果，我们的模型仅使用类别平衡时，与Ours-woPL相比可以实现1.61%的改进，而同时使用类别平衡和超像素空间先验的训练模型可以提高2.27%。这一观察结果表明伪标签组件设计得合理。此外，如图4所示，伪像素标签生成器可以通过结合类别平衡和超像素空间先验迭代生成更高置信度的伪像素标签。超参数的影响：本小节研究了参数 { µ, η } 和 { α, γ }的影响。如图5所示的结果，我们可以通过经验性地进行广泛的参数实验选择最佳的 { µ, η } 和 { α, γ}。请注意，我们的模型在调整不同参数值时具有很大的稳定性。此外，它还验证了结合先前学习的特征和医学内窥镜数据集的稀疏性质的重要性。0图4：伪标签直观传播的示意图，其中输入图像来自肠镜数据集。0(b) 当 µ = 10，η = 0.3 时，图5：参数 { µ, η }（左）和{ α, γ }（右）对医学内窥镜数据集的影响。4.3.基准数据集上的实验0在本小节中，我们对几个具有兼容注释的基准数据集进行实验，以进一步验证我们模型的有效性。为了公平比较，我们移除了分类头，并采用与完成方法[16，42，15，30，33，17]相同的实验数据配置。对于表3和表4中的消融研究，BL，AL，PL，SRT和Ours-woSP分别表示我们模型的基线，对抗学习，伪标签，语义损伤转移组件以及不使用超像素先验进行训练。从SYNTHIA到Cityscapes的转移：在这个实验中，我们的模型用于从SYNTHIA[29]学习可转移的知识到Cityscapes[8]。对于训练阶段，使用细粒度注释的SYNTHIA数据集共有9400个图像。MethodroadsidewalkbuildingwallfencepolelightsignvegskypersonridercarbusmbikebikemIoUDF [41]6.417.729.71.20.015.10.07.230.366.851.11.547.33.90.10.017.4Wild [16]11.519.630.84.40.020.30.111.742.368.751.23.854.03.20.20.620.2CL [42]65.226.174.90.10.510.73.73.076.170.647.18.243.220.70.713.129.0NMD [5]62.725.678.3---1.25.481.381.037.46.463.510.11.24.6-LSD [30]80.129.177.52.80.426.811.118.078.176.748.215.270.517.48.716.736.1LtA [33]84.342.777.5---4.77.077.982.554.321.072.332.218.932.3-CGAN [17]85.025.873.53.43.031.519.521.367.469.468.525.076.541.617.929.541.2BL22.515.474.19.20.124.66.611.775.082.056.518.734.019.717.118.530.4BL+AL74.430.575.813.20.219.74.44.978.282.744.416.063.233.313.526.236.3BL+AL+PL79.238.776.510.70.322.45.611.479.581.358.120.770.431.624.832.340.2BL+AL+SRT79.938.277.19.70.221.16.87.676.181.654.821.366.230.821.630.639.0BL+PL+SRT61.628.771.620.80.628.731.124.980.081.562.716.269.412.327.851.541.8Ours-woSP67.229.473.521.20.728.429.724.579.981.162.915.872.812.626.551.242.3Ours68.430.174.221.50.429.229.325.180.381.563.116.475.613.526.151.942.9MethodroadsidewalkbuildingwallfencepolelightsignvegterrainskypersonridercartruckbustrainmbikebikemIoUDF [41]31.918.947.77.43.116.010.41.076.513.058.936.01.067.19.53.70.00.00.021.1Wild [16]70.432.462.114.95.410.914.22.779.221.364.644.14.270.48.07.30.03.50.027.1CL [42]74.922.071.76.011.98.416.311.175.711.366.538.09.355.218.818.90.016.814.628.9CyCADA [15]79.133.177.923.417.332.133.331.881.526.769.062.814.774.520.925.66.918.820.439.5LSD [30]88.030.578.625.223.516.723.511.678.727.271.951.319.580.419.818.30.920.818.437.1LtA [33]86.536.079.923.423.323.935.214.883.433.375.658.527.673.732.535.43.930.128.142.4CGAN [17]89.249.070.713.510.938.529.433.777.937.665.875.132.477.839.245.20.025.235.444.5BL80.26.474.88.817.217.530.517.775.014.157.956.227.364.129.724.14.727.633.435.1BL+AL86.332.279.822.022.227.133.520.180.321.575.559.025.473.128.032.25.427.331.541.2107190表3：从SYNTHIA数据集到Cityscapes数据集的学习可转移知识的性能比较。具有最佳和亚军性能的模型分别用红色和蓝色标记。0BL+AL+PL 91.7 48.3 76.8 25.1 28.5 28.2 39.7 44.5 79.8 13.6 72.3 53.6 19.1 85.8 23.7 44.2 32.8 13.4 31.5 44.90BL+AL+SRT 92.4 49.8 73.6 25.3 28.3 24.5 40.9 45.0 79.2 14.2 70.4 50.1 18.6 86.6 22.3 45.4 30.3 11.9 32.8 44.30BL+PL+SRT 92.6 47.8 77.4 26.7 28.8 29.9 42.4 46.3 80.7 15.1 71.1 55.8 24.3 86.5 21.5 42.4 43.3 12.1 30.8 46.10我们的模型-wo

下载后可阅读完整内容，剩余1页未读，立即下载