医学图像定位中的复杂和隐式的不平衡条件下的剪枝辅助

70 浏览量更新于2023-10-15 收藏 822KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4987谁是弱者：复杂和隐式不平衡条件下剪枝辅助医学图像定位作者：陈天隆1，陈文龙1.卢梭1人，彭一凡2人，丁颖1人，王张扬1人1德克萨斯大学奥斯汀分校，2威尔康奈尔医学院摘要深度神经网络（DNN）已迅速成为医学图像理解任务的事实上的选择。然而，DNN在图像分类中的类别不平衡是出了名的脆弱我们进一步指出，当涉及到更复杂的任务（如病理定位）时，这种不平衡的脆弱性可能会被放大，因为这些问题中的不平衡可能具有高度复杂且通常是隐含的存在形式。例如，不同的病理学可以具有不同的大小或颜色（相对于背景）、不同的潜在人口统计分布，以及一般不同的识别难度水平，即使在训练数据的有意策划的平衡分布中也是如此。在本文中，我们建议使用修剪来自动和自适应地识别难以学习（HTL）的训练样本，并通过在监督，半监督和弱监督设置的训练期间我们的主要灵感来自于最近的发现，即深度分类模型具有难以记忆的样本，这些样本可以通过网络修剪有效地暴露出来[15]-我们首次将这种观察扩展到分类之外我们还提出了一个有趣的人口分析，说明HTLs捕捉复杂的人口不平衡的能力我们在多个训练环境中对皮肤病变局部化任务进行了广泛的实验，对HTL的高度关注显示出本地化性能的显著提高，提高了102- 3%。1. 介绍在过去的十年中，深度学习的进步对许多医学成像应用产生了重大影响，例如自动病理诊断、检测、定位和配准[27，47，16，31，30，2，17，12，19]。这些应用程序的成功激励了社区中的一些研究人员开发可以提高任务性能的尽管这些真实世界的数据集有助于构建高质量的深度学习解决方案，但它们通常存在类别不平衡的这些问题可能远远超出了对不同类别的不同训练样本数量的普遍看法。实际上，医学成像数据集中的不平衡可能具有高度复杂和微妙的存在形式，例如，不同的病理可能具有不同的颜色和大小，并且即使在精心策划的训练数据中也可能难以识别。此外，它还可能具有许多基于性别、种族、民族和个体人口统计学的隐性不平衡，并且可能非常难以计算。虽然在DNN训练期间，已经有许多努力来处理不平衡，使用数据级方法，如过采样，欠采样，合成采样[23，22，3，32，33，5]或成本敏感学习，基于方法[28，44，45，39]，这些努力主要依赖于已知的阶级分布的假设，而忽略了更复杂的不平衡形式。当在训练期间忽略数据不平衡时，DNN的泛化能力可能会受到严重影响，导致对少数群体的敏感性差和性能不合格许多作品[43，1，29，42，10，41]最近观察到DNN倾向于优先学习简单的模式。更具体地说，DNN优化是内容感知的，利用更多训练示例共享的模式由于少数样本在训练集中的代表性不足，它们往往记忆不良，更容易被模型遗忘在图像分类的背景下，[15]最近的一项经验发现观察到，网络修剪通常会重新移动训练DNN中的最小幅度权重，不成比例地影响各种类别和样本，更多地伤害记忆不良的样本。简而言之，次要样本没有被受这一观察的启发，在本文中，我们试图提出一个有趣的问题：我们能否识别出DNN难以记忆的实例，并且可以代表复杂和隐含的不平衡？. 首次研究了网络剪枝对空间遗忘效应的影响。我们超越图像分类，探索DNN对实例级空间区域不平衡的敏感性，在真实世界的皮肤病变中，4988∼i=1n·|| ·||--图1.定位为前景与背景分类。空间不平衡可能是微妙和复杂的（例如。难以区分颜色、不规则形状、小尺寸等）。calization task（S-LLT）。图1将S-LLT任务说明为前景与背景分类。我们观察到，对经过训练的定位模型进行修剪对空间记忆有不同的影响，它显著影响前景性能，而对背景的影响很小（图2）。考虑到前景作为病理和感兴趣区域的代表，我们提出使用插入式定位（前景）性能作为代理来识别记忆不良并且可以编码复杂不平衡的训练实例– 由于它们对修剪的高度敏感性，我们称它们为有趣的是，使用人口统计学属性（如性别和年龄）对HTL进行的深入分析表明，修剪对某些人口统计学的影响比其他人口统计学，努力地引出数据中复杂和微妙的此外，我们的工作首次证明，修剪可以引起使用真实世界数据集而不是CIFAR和CelebA等策划数据集的训练模型的人口统计学偏见。我们选择S-LLT作为我们的评估任务（尽管它可以很容易地适应任何本地化任务），考虑到ISIC的技术友好可用性2017年，2018年数据集[7，6]，这将使我们能够显示分别是地面真值标签、伪标签和显著图。我们还表明，通过微调参加HTL，我们可以显着提高本地化性能。• 我们进行了大量的实验和烧蚀研究，以了解HTL在S-LLT上的特性此外，我们提供了一个有趣的演示图形分析HTLs，并说明我们的方法此外，我们广泛的实验表明，在S-LLT的不同设置中，2-3% IoU的显著且一致的性能增益2. 方法2.1. 网络修剪NN修剪背后的基本假设是DNN是过参数化的，并且可以使用相对较小的网络（稀疏网络）来实现类似的性能水平。假设数据集D=（xi，yi）n和优选的稀疏水平κ（即，非零权重的数量），NN修剪可以被写为约束优化问题：minL（w;D）=min1l（w;（x，y）），（1）我们的技术在监督，半监督或无监督环境中的有效性以及详细的w wn我我i=1HTL的人口统计学研究我们的主要贡献可以概括为：• 我们提出修剪作为一个指标，以暴露训练的本地化模型的空间弱点，并显示存在这是第一次，我们揭示了修剪dispro-pornography影响前景和背景类，其中一些训练示例的前景性能可以比背景下降更大的幅度，表明它们对修剪的高敏感性。• 针对本地化问题，我们提出了三种新的HTL挖掘策略，在监督，半监督和弱监督设置中使用S.T. w∈Rm，||W||0≤κ（2）其中，l（）是标准损失函数，w是NN的一组参数，m是参数的总数，并且0是L0范数。最小化上述等式的传统方法是通过添加稀疏性强制惩罚项或基于显著性的方法。基于显著性的方法通过使用良好的标准去除NN中的冗余参数来求解上述方程流行的标准包括基于幅度的权重修剪（即，低于某个阈值的权重是冗余的）[11，9]，或者丢失WRT的hessian。权重（即，Hessian值越高，参数重要性越高）[25，13]。在这项工作中，由于其简单性，我们使用了基于幅度的非结构化权重修剪，并将重点放在稀疏NN的“遗忘“行为上避免4989修剪对前景修剪影响小关于背景图2.基于训练的U-Net定位网络的基于幅度的修剪（70%）对监督设置中前景和背景类的IoU的影响与后台IoU相比，修剪严重影响前台IoU。(a)（b）第（1）款图3.（a）通过在监督设置中将基于U-Net的定位网络修剪70%来识别HTL的随机采样示例(b) 在我们的实验中使用经典的U-Net架构进行病变定位。我们简单的模型选择，确保保持重点突出网络修剪和数据集中的隐式复杂不平衡之间的关系。可能的混淆，我们不使用修剪任何模型效率的目的。在我们的框架中，修剪更好地描述为“选择性脑损伤”。它主要用于有效地发现当前模型尚未很好地记忆和学习的HTL。2.2. 难学（HTL）DNN可以使用各种修剪方法以惊人的测试准确性损失被压缩到非常大的水平[25，38，20，8，36，26，18]。最近，一些作品已经确定了修剪与一般化/记忆的更深层次的联系，而不仅仅是将其视为一种特殊的压缩工具[21，46]。[15]最相关的工作是使用修剪作为一种手段来暴露训练模型在泛化方面的弱点。更具体地说，[15]确定修剪训练的图像分类器，对长尾不太频繁的实例产生不均匀的影响。在本文中，我们首次研究了这一观察结果，以识别在监督、半监督和弱监督环境中用于病理定位的“容易被遗忘“的使用S-LLT作为我们的实验任务，我们发现修剪对前景和背景类的影响不成比例，对前景的影响很大（图2）。我们观察到，一些训练示例的前景性能下降了很大一部分，杜松子酒，表明他们的高度敏感性修剪。我们将这些最受影响的图像称为我们想强调的是，我们的HTLs的想法是一个大胆的尝试，探索超越类明智的标签不平衡。即使是人工分类平衡的数据集，如CIFAR-10/100和ImageNet。具有许多隐藏的内在形式的不平衡，例如类级别的难度变化或实例级别的特征分布，这反映在训练的DNN的性能中。由于HTL是标签不可知的，并且完全依赖于DNN我们使用ISIC- 2017对S-LLT进行的深入分析验证了HTL在现实世界数据集中捕获隐式人口统计（性别和年龄）不平衡的能力，这为在训练期间明确关注它们提供了机会。图3（a）显示了在监督设置中通过将基于U-Net的定位网络修剪70%来识别HTL的一些示例。2.3. 采矿HTL医学成像真实世界数据集表现出微妙的不平衡形式，其中各种特征属性具有非常不同的频率（例如，病理颜色、大小和形状）4990i=1i=1i=1Σi=1--i=1xi}i= 1）。此外，它还利用了·--步骤1训练神经网络使用数据集步骤2通过修剪识别通过获取，哪里是修剪面具步骤3微调神经网络，同时额外关注图4.我们的剪枝辅助NN训练范式的本地化概述算法一：监督剪枝辅助定位1输入：数据D={xi}n，本地化标签Y={yi}n，Model=f（θinit，·），Pruning算法=P，阈值HTL=τ2L通过最小化n来获得f（θinterrmediate，·）L定位（θinit，D，Y）3P使用P通过p %对f（θintermediate，·）进行修剪，以得到f（θintermediatm，·），其中m∈{0，1}<$θ<$0是修剪掩码。4我确定DHTL={{xi，yi}st。IoU（f（θintermediatem，xi））−IoU（f（θintermediate，xi））>τ}5F线性调谐f（θ中间，·）→f（θ最终，·）通过最小化定位（θinit，DHTL ，YHTL）6返回f（θfinal，·）和实例级难度变化。从广义上讲，这种不平衡不仅限于标准的主要群体与少数群体之间的不平衡，而且还延伸到基于性别、种族、民族以及不平等人口统计学的隐性形式，并且可能非常难以解释。在本节中，我们介绍了三种不同的HTL（以标签不可知的方式内在地捕获微妙的不平衡）挖掘策略，用于监督、半监督和弱监督设置中的本地化。2.3.1监督设置：我们的监督设置考虑段的可用性对应于每一个训练输入的掩码（{y}n）为了从训练数据中识别HTL（D_H_T_L），我们使用修剪算法P将经训练的网络修剪p%并寻找对修剪高度敏感的伪标签实例（即，在使用[17]生成的边界框中观察到显著变化）。完整的半监督剪枝辅助定位过程总结在Al-m 2.最终的网络是通过微调产生的，并额外关注斑点HTL。2.3.3弱监督设置：在我们的弱监督设置中，我们不使用与输入训练数据集对应的任何分割标签。年龄（nii=1相反，我们建议使用高级分类标签，x ii=1）。我们首先使用监督交叉熵损失（L定位）来训练U-Net模型（图3），以适应我们标记的训练数据。为了从训练数据中识别HTL（D_H_T_L），我们使用修剪算法P将经训练的网络修剪p%，并寻找对修剪高度敏感的实例（即，观察到的信号前台IoU性能下降）。算法1中总结了完整的监督剪枝辅助定位过程。最终的网络是通过微调产生的，并额外关注斑点HTL。2.3.2半监督设置：我们的半监督设置考虑了对应于n个输入的分割掩码（{yi}n）使用额外的MLP层和监督分类损失（L分类）来训练我们的U-Net骨干。我们使用了ISIC-2018数据集，该数据集提供了10，015张无分割掩模的图像，分为8种不同的临床场景，并在具有分割标签的ISIC-2017测试集上评估了性能。在此设置中，我们将来自使用分类损失训练的U-Net模型的最后一个卷积层的特征张量传递给GradCAM++ [4]，并使用[17]生成边界框。为了识别HTL，我们比较了使用修剪算法P将骨干网络修剪p%之前和之后为输入图像生成的边界框。我们总结了算法3中完整的弱监督剪枝辅助最后一个网络是gener-训练图像（{ni=1通过对HTL的额外关注进行微调。k个病理学图像（xik），对于这些病理学图像没有分割掩模可用。我们首先使用监督交叉熵损失（L局部化）以适应我们的标记训练数据（D）。接下来，我们为k个未标记的病理图像生成伪标签。为了2.4. 统一管道我们完成的修剪辅助定位流水线如图4所示。给定一个神经网络f（θ，），我们首先使用训练数据集D训练f。接下来，我们确定4991i=1i=1i=1i=1Σi=1i=1i=1i=1·2L通过最小化来获得f（θintermediate，·）∈f（θinit，·），剪枝算法=P，thrersoldHTL=τni=1nexp（λCx~）算法二：半监督剪枝辅助定位1输入：数据D={xi}n，本地化标签Y={yi}n，未标记数据D={xi}k，Model=f（θinit，·），剪枝算法=P，阈值HTL=τ2L通过最小化n来获得f（θinterrmediate，·）L定位（θinit，D，Y）3G生成局部化伪标签Y_i=fθintermediate（x_i），其中i=1，2，.，K4P使用P通过p %对f（θintermediate，·）进行修剪，以得到f（θintermediatm，·），其中m∈{0，1}<$θ<$0是修剪掩码。5我确定DHTL={{xi，yi}st。BB（f（θintermediate_m，x_i））−BB（f（θintermediat_e，x_i））>τ}6F内调f（θ中间，·）→f（θ最终，·）通过最小化定位（θinit，DHTL ，YHTL）7Returnf（θfinal，·）算法3：弱监督剪枝辅助定位1输入：数据D={xi}n，分类标签Y={yi}n，热图发生器=GradCAML（·），型号=L分类（θinit，D，Y）3G生成热图，Y CAM= GradCAM L（f（θ intermediate，x i）），i = 1，2，.， n，其中L表示f（θintermediate，·）的第L层的张量输出。请注意，热图是定位的指示器。4P使用P通过p %对f（θintermediate，·）进行修剪，以得到f（θintermediatm，·），其中m∈{0，1}<$θ<$0是修剪掩码。5G生成热图YCAM=G rad CAML（f（θintermediatem，xi）），其中i=1，2，.，n6我确定DHTL={{xi，yi}st。BB（Y C AM（x i））− BB（Y <$C AM（x i））> τ}7F线性调谐f（θ中间，·）→f（θ最终，·）通过最小化分类（θinit，DHTL ，YHTL）8Returnf（θfinal，·）HTL使用第2.3节中提出的方法，该方法突出了我们训练的网络f（θ，）的弱点。最后，我们通过使用加权交叉熵损失额外关注HTL来微调我们的网络f：C人口不平衡。对于我们的半监督和弱监督任务，我们使用了ISIC-2018数据集，该数据集提供了10，015张无分割掩模的图像，分为8种不同的临床场景。虽然我们的方法可以适用于任何任务，但ISIC数据集提供元数据信息（性别和年龄等人口统计信息l=−Wexp（xn，c）×log×yi=1n我（三）其中x其中，y是目标，w是类c的权重，C是类的数量（即，前景，背景），n是第n个训练示例。我们广泛的实验分析表明，微调网络实现了信号，在所有三种训练范式中，ISIC 2017测试集的前景性能增益显著。3. 实验设置数据集详细信息：我们的实验使用皮肤病变局部化（S-LLT）作为我们的评价任务，并从ISIC-2017 [7]和ISIC-2018中获取皮肤镜图像[6]挑战. ISIC-2017数据集包括JPEG格式的2000、150和600个病变图像，用于训练、验证和测试，以及PNG格式的相应专家注释二进制分割掩码图像。它还为患者提供年龄和性别的人口统计学元数据条目，我们使用这些条目来验证我们的方法提供了一个独特的机会来有效地评估我们提出的方法（第2.3节）在多个训练环境中的监督的、半监督的和弱监督的）以及人口统计分析。培训和微调详情：在我们的实验中，所有模型都使用类似的设置和种子值进行训练（10，20，30）。我们使用了一个SGD优化器，动量为0.9，权重衰减为2e-4。初始学习率设置为0.1，网络被训练为100个epoch，批大小为64。在训练期间，学习率在第[20，50，80]个时期衰减10倍我们使用标准的增强技术在训练过程中翻转、旋转和镜像图像。对于修剪，我们已经使用了一个全球非结构化的幅度为基础的修剪和修剪率为70%，在所有的实验。在微调阶段，我们以0.01的较小学习率开始，并使用HTL重新训练网络20个epoch，在第15个epoch处衰减我们所有的模特i=1C以及高质量的分割注释以及具有分类标签的未注释图像这个设施--n、c4992监督半监督修剪率25% 50% 75% 99% 25% 50% 75% 99%前景12.41%（↓）26.64%（↓）42.19%（↓）86.15%（↓）9.72%（↓）15.33%（↓）43.01%（↓）81.98%（↓）背景0.95%（↓）6.03%（↓）17.11%（↓）48.30%（↓）0.26%（↓）4.87%（↓）11.32%（↓）47.71%（↓）表1.当在监督和半监督设置中使用基于非结构化幅度的修剪将训练网络修剪p%对于背景和前景类，可以清楚地观察到修剪的不成比例的影响。图5.由基线1和我们的方法在HTL样本上生成的分割掩模的可视化示例。通过在微调中额外关注HTL样本，该模型能够为HTL生成更好的分割掩码，从而提高整体性能。我们使用4个Quadro RTX 5000 GPU进行了训练，并使用不同基线的前景和背景IoU得分评估了我们的模型其他实施实用程序详细信息：在我们所有的实验中（除了消融），我们都使用了基于非结构化幅度的修剪，在那里我们找到并删除模型中最不显著的连接（权重幅度），无论它们在哪里。对于算法2和3中的边界框生成，我们将最后一个卷积层的特征张量传递给GradCAM++[4]以提取热图。我们进一步将热图强度缩放到范围[0-255]，并使用ad-hoc阈值（像素值=180）来二值化热图。最后，我们按照[17]创建边界框。我们使用了两个流行的评估指标（IoU和DICE）来比较我们的方法与不同基线的性能。基线比较：在我们的实验中，第一个基线是经过训练以执行S-LLT的U-Net架构。我们调整了[34]中提出的原始U-Net（基线1）版本，以避免任何设计开销并突出HTL的重要性。我们的第二个基准是ISIC-2017挑战排行榜中表现最好的架构（基准2）。我们的第三个基线使用局灶性丢失[28]，这是处理不平衡的一个默认选择（基线3）。在我们的第四个基线中，我们随机抽取了完全相同数量的实例（不是专门挑选的HTL），并对我们的网络进行了类似于我们提出的方法的微调，以验证识别和使用HTL的重要性（基线4）。接下来，在我们的第五个基线中，我们按照S-LLT数据集中的类分布随机抽样了完全相同数量的实例，其中少数类的抽样概率更高对我们的网络进行微调（基线5）。最后，我们的最终基线根据人口统计分布（性别）随机抽样了完全相同数量的样本，以微调我们的网络（基线6）。表2中报告了所有基线与我们基于HTML的微调相比的性能比较，这清楚地揭示了我们方法的有效性请注意，我们工作的主要目标是引出网络修剪在识别医学数据集中复杂的隐式不平衡方面的有效性，并提出一种简单而统一的方法来识别在训练期间遭受不平衡的数据样本，而不是提出特定于任务的新型类不平衡算法。4. 主要结果和讨论在本节中，我们全面分析了修剪在引发训练的局部化模型的弱点方面的影响，以及与背景相比其对前期性能的高敏感性。此外，我们提供了一个性能比较，我们提出的修剪辅助定位算法1，2和3对几个基线。最后，我们提供了一个有趣的观察人口偏见捕获我们的修剪为基础的HTL，其中一些人口有更高的影响修剪相比，其他。最后，我们进行了一个消融研究，以说明我们的观察是不可知的各种修剪方法，和HTL识别的任何修剪方法有类似的好处。修剪如何影响前景与背景？我们发现，修剪始终放大了我们考虑的所有压缩级别的前景性能的不同处理。图2示出了当基于U-Net的经训练的定位网络被修剪70% us时，4993∼∼联系我们∼∼方法监督半监督弱监督表2.我们的方法对不同基线的性能比较，使用非结构化的基于幅度的修剪，在ISIC-2017测试集上的修剪率为70%。与所有基线相比，我们的方法显着提高了前景性能。实例百分比（%）ISIC-2017数据实例百分比（%）ISIC-2017数据实例百分比（%）已开采的HLT实例百分比（%）已开采的HLTAvg.下降百分比（前台IoU）Avg.下降百分比（前台IoU）0 10 20 30 4050百分比0 10 20 30 40百分比图6. (a)性别分布，（b）ISIC-2017中实例的年龄分布，以及在监督设置中使用训练的U-Net显然，修剪不同地影响不同年龄和性别组使用基于幅度的非结构化修剪。我们观察到，近18%的实例的前台性能（IoU）损失>=40%，而1%的实例的后台性能（IoU）损失>=40%。此外，表1详细分析了不同阈值下修剪的不成比例影响在监督和半监督设置中，在前景和背景IoU上p25%、50%、75%、99%。可以观察到，在所有修剪阈值上，在两个训练设置中前景比背景遭受更多的损失。注意，在非常高的稀疏性（例如，99%），网络性能明显降低，甚至后台性能也大幅下降>47%，不适合HTL挖掘。根据我们的实验，我们建议60-80%的修剪率为非结构化的幅度为基础的修剪。HTL意识培训如何使整体绩效受益？在我们的工作中，我们假设HTL代表医学成像数据集中普遍存在的复杂和隐含的不平衡为了证明捕获HTL的工作负载的好处，说明它们如何帮助提高本地化性能是很重要的。表2显示了我们的方法（种子10、20、30的3次独立运行的平均值）与监督、半监督和弱监督设置的三个上述基线的比较。可以清楚地观察到，我们的修剪辅助算法1、2和3在所有三个训练设置中为两个流行的定位度量IoU和DICE提供了一致且显著的性能增益。更准确地说，我们提出的方法实现了显著增益（IoU）为+2。百分之七，+3。4%，+2。在监督、半监督和弱监督设置中，对于期望的前景类，比基线1高1%。与ISIC排行榜性能（基线2）相比，我们的方法性能显着较高。[28]中提出的焦点与基于焦点损失的基线3相比，我们的方法实现了+1。0%，+1。2%，+2。三种训练设置的性能提高9%为了确认HTL是特殊的实例，我们的基线4在数据集中随机抽样完全相同数量的训练实例，然后使用与HTL相同的训练协议进行微调。表2阐明了与基线相比HTL的重要性4. 接下来，令我们惊讶的是，基线5（它根据类分布对微调实例进行采样）的性能明显不如基线4（它随机采样HTL而不遵循任何类分布）。深入分析表明，虽然少数分类皮肤纤维瘤和血管病变仅对应0. 9%和1%的数据集，他们几乎每-在测试集上的性能良好（98.7%和98.6%的正确率），分别地）。采样额外的样本来微调这些类这显然支持了我们的动机，即不平衡不仅限于标准的主要与少数类，而且扩展到隐含和微妙的形式，如特征属性（例如，病理颜色、大小和形状）并基于人口统计学（例如，性别种族性别男女年龄年龄= 3030年龄= 50年龄> 50B（借据）F（IoU）平均值（IoU）骰子B（IoU）F（IoU）平均值（IoU）骰子B（IoU）F（IoU）平均值（IoU）骰子基线10.8940.6540.7740.8550.9010.6610.7810.8650.6220.4200.5210.637基线20.8910.6370.7640.8490.8760.6420.7590.8130.5680.3900.4790.596基线30.8920.6630.7750.8630.9060.6690.7880.8720.6140.4110.5130.644基线40.8830.6600.7720.8520.8940.6620.7780.8660.6090.4070.5080.641基线50.8780.6590.7690.8440.9000.6470.7740.8590.6100.3990.5040.635基线60.8800.6650.7730.8590.8910.6710.7810.8710.6190.4130.5160.640我们的方法0.8900.6810.7850.8710.9040.6950.8000.8840.6430.4380.5420.6574994∼∼∼∼∼联系我们{}方法全网20% 70% 95%随机修剪0.654 0.431（↓0.223）0.218（↓0.436）0.022（↓0.632）非结构化MB修剪0.654 0.580（↓0.074）0.409（↓0.245）0.296（↓0.358）结构化MB修剪0.654 0.533（↓0.121）0.387（↓0.267）0.215（↓0.439）表3.不同稀疏度的各种修剪方法对监督设置中前景性能的影响种族），并且可能很难解释。最后，在S-LLT数据集中，与男性和女性相关的诊断比例分别为50.81%和49.19%。我们的最后一个基线6，根据性别分布随机抽样，与基线4相比具有边际效益（+0。5%的前景性能），这进一步表明了不平衡的复杂性。最后，图5展示了Baseline 1和我们的方法在HTL挖掘中随机选择的一些样本上生成的分割掩码的可视化。通过在微调中额外关注HTL样本，基于UNet的本地化模型可以为HTL实例生成更好的分割掩码，从而提高整体性能。图7.不同剪枝方法在监督环境中的定位性能（HTL挖掘的剪枝率为70%）。HTL如何捕捉微妙的人口不平衡？HTL是我们探索复杂和隐含的不平衡的大胆尝试，这些不平衡超出了本地化设置中的类分布。在本节中，我们对HTL进行了有趣的深入人口统计分析，并验证了我们的修剪辅助HTL挖掘确实捕获了经过训练的U-Net本地化网络的人口统计偏差。图6显示了ISIC-2017数据集和挖掘的HTL中数据点可以清楚地观察到，尽管ISIC-2017从性别角度来看相当平衡（男性和女性分别为50.82%和49.18%），但所挖掘的HTLs子集的性别分布偏向女性4%。此外，与男性相比，女性的前景性能的平均下降>8%，这是模型偏爱属于男性患者的学习实例的指标。此外，从年龄组的角度来看，可以观察到属于30-40 岁年龄组的患者在数据中占第二大比例（30.95%），但他们受修剪的影响最小，在HTL子集中仅占26.52%，并且前景IoU性能略有下降。然而，有趣的是，属于年龄组=30岁的患者在数据中所占比例最小（23.79%），受到修剪的严重影响，在HTLs子集中占32.11%，这再次指出了模型了解属于该年龄组的患者该分析是修剪能力的一个强有力的指标，可以在定位任务中发现修剪算法对性能的影响：为了研究我们对修剪的不成比例影响的观察对于修剪方法是不可知的，我们对随机修剪、基于非结构幅度的修剪和基于结构幅度的修剪进行了消融研究。表3示出了具有变化的修剪比率p0%、20%、70%、95%的修剪方法对前景的不成比例的影响，对背景IoU具有边际影响。在我们的实验中，我们观察到p对性能的敏感性最小，并且我们实现了大约2.812%的性能增益 0.369，p分别为50%、60%、70%、80%，透视设置。请注意，较大的p值将导致修剪后的网络忘记大量信息，并且由于DNN的过度参数化，较小的p值将没有影响。请注意，在我们所有的实验中，我们使用了70%的修剪率，考虑到它的性能稍好。最后，图7说明了监督设置中不同修剪方法的本地化性能。显然，可以观察到，在不损害背景IoU的情况下，所有修剪方法都有助于显著改善前期IoU。5. 结论与普遍使用的修剪作为一种特殊的压缩工具相反，在本文中，我们提出修剪作为一种技术，以暴露训练的本地化模型的弱点，并显示存在“textithard-to-learn”训练示例。我们提出了三种HTL挖掘策略，在监督，半监督和弱监督的设置，使用地面真实标签，伪标签和显着图。我们的实验表明，通过参加HTL在- ING微调，我们可以显着提高本地化性能。最后，我们提出了一个有趣的人口分析，说明HTLs捕捉复杂的人口不平衡的能力。我们未来的工作将致力于对HTL及其重要性有更多的理论认识。确认这项工作得到了国家医学图书馆的支持。4R00LM013001 和 UTAustin 的 NationalNSFAICenter。4995引用[1] Devansh Arpit ， Stanismartaw Jastrzebski ， NicolasBallas，David Krueger，Emmanuel Bengio，Maxinder SKanwal ， TeganMaharaj ， Asja Fischer ， AaronCourville，Yoelman Bengio，et al.深入研究深度网络中的记忆ICML 2017，第233-242页。PMLR，2017年。[2] EnesAyanandHalilMuratUünver r. 使用深度学习从胸部x光图像诊断肺炎在2019年电气电子生物医学工程和计算机科学（EBBT）科学会议上，第1-5页。2019年，伊斯坦堡。[3] Gustavo E. A. P. A.巴蒂斯塔，罗纳尔多克里斯蒂亚诺普拉蒂，和玛丽亚卡罗莱纳莫纳德。对平衡机器学习训练数据的几种方法的行为的研究。SIGKDD，6：20[4] AdityaChattopadhyay ， AnirbanSarkar ， PrantikHowlader ， and Vineeth N. Balasubramanian Grad-cam++：深度卷积网络的一般化基于梯度的视觉解释。WACV 2018，第839-847页[5] N. Chawla，K.作者：Lawrence O. Hall和W.菲利普·凯格尔迈耶Smote：合成少数民族过采样技术。J. Artif.内特尔Res. ，16：321[6] Noel Codella，Veronica Rotemberg，Philipp Tschandl，M Emre Celebi，Stephen Dusza，et al. 2018年黑色素瘤检测的皮肤病变分析：由国际皮肤成像合作组织（ isic ）主办的挑战赛。 arXiv 预印本 arXiv ：1902.03368，2019。[7] Noel CF Codella ， David Gutman ， M Emre Celebi ，Brian Helba，Michael A Marchetti，et al.皮肤病变分析以检测黑色素瘤：由国际皮肤成像协作组织（ISIC）主办的2017年国际生物医学成像研讨会（ISBI）上的一项挑战。2018年IEEE第15届生物医学成像国际研讨会（ISBI 2018），第168-172页。IEEE，2018年。[8] 乔纳森·弗兰克尔和迈克尔·卡宾。彩票假设：寻找稀疏的、可训练的神经网络。 arXiv 预印本 arXiv ：1803.03635，2018。[9] Yiwen Guo，Anbang Yao，and Yurong Chen.动态网络外科手术用于有效的dnns。神经信息处理系统的进展，29，2016。[10] Bo Han，Gang Niu，Xingrui Yu，Quanming Yao，MiaoXu，Ivor Tsang，and Masashi Sugiyama. Sigua：遗忘可能会使带有噪声标签的学习更加强大。在机器学习国际会议上，第4006-4016页。PMLR，2020年。[11] Song Han，Jeff Pool，John Tran，and William Dally.学习权值和连接以实现高效的神经网络。神经信息处理系统的进展，2015。[12] Yan Han ， Chongyan Chen ， Liyan Tang ， MingquanLin，Ajay Jaiswal，Ying Ding，and Yifan Peng.使用放射组学作为胸部x射线异常分类和定位的先验知识。ArXiv，abs/2011.12506，2020。[13] 放大图片作者：David G. Stork，and Gregory J.沃尔夫最佳脑外科医生和一般网络修剪。IEEE神经网络国际会议，1993.[14] Robert C.Holte，Liane Acker，and Bruce W.波特概念学习与小析取问题。载于IJCAI，1989年。[15] Sara Hooker ， Aaron Courville ， Gregory Clark ， YannDauphin，and Andrea Frome.压缩的深度神经网络会忘记什么？arXiv预印本arXiv：1911.05248，2019。[16] 放大图片作者： Justin F. Rousseau ， Yifan Peng ，Zhangyang Wang，and Ying Ding. Ros-kd：一种用于噪声医学成像的鲁棒随机知识提取方法2022年。[17] 艾杰·贾斯瓦尔，李天豪，塞浦路斯·赞德，闫涵，贾斯汀·F。卢梭，彭一凡，丁颖。使用患者Meta数据进行心肺疾病分类和胸部x射线定位的头皮监督对比学习。2021 IEEE International Conference on Data Mining（ICDM），第1132-1137页[18] Ajay Jaiswal，Haoyu Ma，Tianlong Chen，Ying Ding，and Zhangyang Wang.使用任何掩码更好地训练稀疏神经网络。arXiv预印本arXiv：2206.12755，2022。[19] Ajay Jaiswal ， Liyan Tang ， Meheli Ghosh ， Justin FRousseau，Yifan Peng，and Ying Ding.Radbert-cl：用于放射学报告分类的事实感知对比学习。在机器学习健康，第196PMLR，2021年。[20] Ajay Kumar Jaiswal，Haoyu Ma，Tianlong Chen，YingDing，and Zhangyang Wang.抽奖后更好地使用您的中奖彩票。arXiv预印本arXiv：2101.03255，2021。[21] Ziyu Jiang ， Tianlong Chen ， Bobak J Mortazavi ， andZhangyang Wang.自我破坏的对比学习。国际机器学习会议，第4927- 4939页PMLR，2021年。[22] 赵泰浩和娜塔莉·雅普科维奇。阶级不平衡与小析取。SIGKDD浏览器，6：40[23] 我的朋友是Ku ba't和StanMatwin。解决不平衡训练集的诅咒：片面选择。载于ICML，1997年。[24] 拉腊萨瓦尔、涅托、彼得森、米隆和费兰特。性别失衡在医学成像数据集中产生用于计算机辅助诊断的有偏分类器。美国国家科学院院刊，117（23）：12592[25] 放大图片作者：John S. Denker和Sara A.索拉最佳脑损伤。NIPS，1989年。[26] Namhoon Lee 、 Thalaiyasingam Ajanthan 和 Philip HSTorr。Snip：基于连接敏感性的单次网络修剪。arXiv预印本arXiv：1810.02340，2018。[27] 李哲，王冲，韩梅，袁雪，魏巍，李丽佳，李飞飞。在有限监督下进行胸部疾病识别和定位。在CVPR，2018年。[28] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在IEEE计算机视觉国际会议的论文集，第2980-2988页，2017年[29] Sheng Liu，Jonathan Niles-

下载后可阅读完整内容，剩余1页未读，立即下载