基于学习的校准方法用于多标签语义分割的文件标题

96 浏览量更新于2023-09-25 收藏 1.18MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6889用于概率校准的丁志鹏徐韩培荣刘Marc Niethammer美国北卡罗来纳大学教堂山分校{zp-ding，xhs400，peirong，mn} @ cs.unc.edu摘要对于语义分割，标签概率通常是交集超过联合（IoU）和骰子得分通常被用作分割成功的标准，而与标签概率相关的指标并不经常探索。然而，已经研究了概率校准方法，其将概率输出与实验观察到的误差相匹配。这些方法主要集中在分类任务上，而不是语义分割。因此，我们提出了一种基于学习的校准方法，专注于多标签语义分割。具体地，我们采用卷积神经网络来预测局部温度值以进行概率校准。我们的方法的一个优点是它不改变预测精度，因此允许作为后处理步骤的校准。在COCO、CamVid和LPBA40数据集上的实验证明了针对一系列不同指标的改进的校准性能我们还证明了我们的方法从磁共振图像的多图谱脑分割的良好性能。1. 介绍随着深度卷积神经网络（CNN）的发展，语义分割的准确性已经显著提高[9，43]。然而，理想的语义分割网络不仅应该是准确的，而且还应该指示它们何时可能是不正确的。例如，自动驾驶系统可以使用深度卷积神经网络来分析来自相机的实时场景[5]，街道场景的相关语义分割另一个例子是用CNN分割脑肿瘤[22]。如果分割网络不能自信地分割大脑的关键区域，则医学专家应该决定或被警告这种可疑区域。因此，重要的是语义分割网络生成准确的标签预测和准确的置信度测量。然而，由于过拟合，用于语义分割的CNN往往对预测的标签过度自信[17，20，29，41]。联合预测和存在校准[36，44，48，52]。然而，它们需要改变学习任务，并且通常努力校准，但不保证校准。一种替代方法是经由后处理来校准模型的所得概率，使得它们更好地反映正确的真实概率。这是我们在这里考虑的方法，因为它很容易应用于预先训练的网络，甚至可以概率校准首先用于分类研究[58]，通常通过保持验证数据集来解决这个问题。现有的校准方法仍然具有若干限制：（1）大多数概率校准方法被设计用于分类，因此不能保证很好地用于语义分割（其中在像素/体素级别上进行注释也更具挑战性）;（2）虽然讨论语义分割的概率校准的工作有限，但是该工作仅适用于特定类型的模型（例如，贝叶斯神经网络[29]）或仅隐含地改进校准性能（例如，通过模型集成[47]或多任务学习[31]）;（3）大多数方法被设计用于二进制分类，并通过分解成k个一对多二进制校准（其中k表示类的数量）来处理多类问题。然而，这样的分解不保证整体校准（仅针对归一化之前的各个子问题），并且训练模型的分类精度在校准之后可能会改变，因为标签的概率顺序可能会改变。我们的目标是开发一种后处理校准方法，用于多标签语义分割，它保留标签概率顺序，因此，模型的分割精度。我们的工作受到用于分类概率校准的温度缩放（TS）[20]的启发。由于TS仅确定一个全局缩放常数，因此它不能捕获图像中的空间误校准变化。因此，我们（1）将TS扩展到多标签语义分割，并且（2）使其适应局部图像变化。6890FP我们的贡献是：（1）空间局部概率校准：我们提出了一个基于学习的本地TS方法，预测每个像素/体素的一个单独的温度尺度。(2)完全分离的精度保持后处理：我们的方法是完全分离的分割任务，保持预测精度不变。(3)理论依据：我们提供了一个理论分析我们的方法的有效性。(4)综合分析：我们提供了定义和评估的语义分割的概率校准和验证我们的方法定性和定量的度量。(5)实际应用：我们成功地将我们的校准概率用于医学图像分析领域中的多图谱分割标签融合。2. 相关工作已经提出了各种校准方法，但没有一种解决我们的目标设置。基于bin的方法。非参数直方图分箱[67]使用每个箱中阳性类样本的平均数量作为校准概率。保序回归[68]通过联合优化箱边界和箱预测扩展了这种方法;它是最流行的非参数校准方法之一。ENIR [55]通过放松等渗回归的单渗性假设来这些基于bin的方法不考虑语义分割中相邻像素/体素之间的相关性，而我们提出的方法通过卷积滤波器捕获相关性。温度定标方法。Platt scaling [58]使用逻辑回归进行概率校准。矩阵标度[20]、矢量标度[20]和温度标度[25，20]都将Platt标度推广到多类标度，其中温度标度既有效又最简单。ATS [51]通过使用每个类别上的条件分布来扩展温度缩放，以解决小型验证数据集、噪声标签和高度准确网络的校准挑战。BTS [30]将温度缩放扩展到逐箱设置，并且还使用每个箱内的数据增强来提高校准性能。然而，与我们的方法（其扩展温度缩放）不同，这些方法都不考虑概率校准的空间变化。贝叶斯方法BBQ [54]通过对所有可能的分箱方案产生的概率进行贝叶斯平均来Bayes-Iso [1]通过使用贝叶斯等渗校准来扩展等渗回归，以允许在单调拟合和平滑度方面具有更大的灵活性。Jena等人[29]建议使用效用函数，重点关注这些方法不考虑像素/体素相关性。贝叶斯神经网络可以捕获空间相关性，但首先需要贝叶斯公式。此外，虽然贝叶斯不确定性量化[32]有助于概率校准，但它也可能无法实现它（Appx.A）的情况。相反，我们的方法认为像素/体素的相关性，并可以用作任何语义分割方法，生成概率输出的后处理方法其他方法。Mehrtash等人[47]发现模型集成提高了医学图像分割的置信度校准。在[38，69]中也发现了类似的结论，其中集合用于产生良好的Karimi等人[31]表明，多任务学习可以产生比单独训练的专用模型更好的校准预测。注意，集成或多任务学习不直接解决概率校准，相反，它们提供关于如何获得更好的校准分割模型的见解。Leathart等人[39]通过在输入表格数据上构建决策树改进了分类任务的校准，其中叶节点对应于不同的校准模型。此外，beta校准[35]扩展了逻辑校准，以克服每类得分分布严重偏斜的情况。狄利克雷校准[34]使用狄利克雷分布将β校准推广到多类问题。Rahimi等人[59]提出使用基于神经网络的帧内保序函数进行校准。这些方法也不是直接设计用于语义分割的概率校准，而是专注于分类。还存在联合考虑预测和校准的学习算法[36，44，48，52]。虽然它们可以帮助减轻误校准，但它们通常不能完全消除它。事实上，他们也可以从我们的后处理方法中受益（§4.2）。3. 方法3.1. 问题陈述我们的目标是校准深度语义分割CNN的预测概率。假设存在预先训练的神经网络，其中图像I作为输入，其输出每个位置X处的logit的向量。每个logit对应于一个标签，logit值反映标签置信度。预测的标签是具有最大logit值的标签;通常经由logit的softmax获得每个像素/体素的对应置信度具体地，预测的置信度图和对应的分割图是exp（z（x）（l））贝叶斯深度神经网络的中间层SMz（l）来校准图像分割的概率。马罗纳斯P（x）=最大σl2 L（（x））= maxl2 Lj2Lexp（z（x））（j）），等人[46]提出了解耦贝叶斯神经网络来校准分类概率。基于bin的贝叶斯S（x）=argmaxz（x）（l），（3.1）l2 L6891⇥FFFC✓.Σ2其中，〇SM是softmax函数，X表示位置，L是所有标签的集合，l是标签索引，并且z（X）（l）=zl（X）是对应于位置X处的标签l的logit。概率校准的目标是确保置信度图P表示真实的概率y。例如，给定10 × 10图像，标签置信度为0。对于每个像素，我们期望70个像素应该被正确地分割。这可以被正式化如下：定义1. 一个语义分割是完美的校准在区域如果P（S（x）=S（x）|P（x）=p）=p，8p2[0，1]，x2（3.2）当S（x）和S（x）分别是位置x处的真实和预测分段时，P（x）是预测S（x）的置信度，P是概率测度。简而言之，如果观察到的概率是真实的概率，则语义分割模型被很好地校准。由于很难直接使用此定义来评估误校准，因此我们扩展了几个视觉和定量度量[11，53，54，56，57]，这些度量在分类的背景下已经提出。3.2. 校准设置假设语义分割网络的数据分割是D训练/D值/D测试，即是在D训练数据集，在Dval数据集上验证以选择最好的模型，并最终在D测试数据集上进行测试。请注意，Dtrain、Dval和Dtest是不相交的数据集。评估时可观察到校准误差D检验概率相关的措施。我们的目标是校准F对D检验的概率输出。为此，我们训练一个图1：左：U-Net的预测概率（置信度）第4.3节。中间：可靠性图的10个箱的每个箱的平均准确度右：通过优化获得的温度值图，揭示了不同位置处的不同最佳局部TS值。其中η表示图像空间，并且η是训练图像的数量然而，以这种方式的温度缩放假定每个图像具有相同的分布（即，对于所有图像，相同的温度T），这是不现实的。因此，我们建议放宽这项假设如下：定义2. 基于图像的温度缩放（IBTS）：Qi（x，Ti）=maxσSM（zi（x）/Ti）（1），（3.4）l2L其中T12R+是图像依赖性的。虽然这看起来像是一个小小的改变，但...在标准的温度定标方法中，重要的是要注意，移动到基于图像的温度值Ti要求我们学习预测每个图像I的该温度值的回归器。因此，我们使用CNN [19]来学习从（zi，Ii）到Ti的映射。假设网络是F，则优化是n通过交叉熵损失对保持验证数据集Dval进行校准模型，以获得更好的校准概率。✓=arg min-XXlogzi（x）（Si（x））F（✓，zi，Ii）D上F的test.i=1x23.3. 概率校准温度标度[20]已被提出作为Platt标度[58]的简单扩展，用于多类分类的具体而言，温度缩放估计单个标量参数T2S. t.F（✓，zi，li）>0，（3.5）其中，是网络F的参数。校准概率可以通过代入Ti=F（✓，zi，Ii）在等式（3.4）。3.4. 概率校准R+，即，温度，以校准概率：maxl2LσSM（z/T）（l），其中q是校准概率y。我们可以直接把温度标度扩展到seman-通过估计一个全局参数TR+的tic分割对于所有图像的所有pixels/v 〇 xels：Q^ i（x，T）=maxl2LσSM（zi（x）/T）（l），其中Qi是第i幅图像的校准概率图。在[20]中，我们得到通过最小化以下负数来获得T对数似然（NLL）w.r.t.保留验证数据集：深度CNN预测的概率因位置而异。图1示出了通常可以准确地预测对象内部，而对边界或近边界位置的预测因此，最佳温度值可以跨位置变化。但是，我们-输入全局参数T或基于图像的参数Ti，不能解释这种空间变化。这是一个实际问题在图1的未校准可靠性图中说明。2，这表明信心与T=arg min不.--XXlog σSM .zi（x）/TΣ（Si（x））！精确度关系实际上可以在图像上变化。因此，空间变化应当被考虑用于语义分段。i=1x2S.T.T >0，（3.3）n6892心理状态因此，我们建议以下本地项目-温度缩放（LTS）方法。6893| |！一个2个！图2：U-Net分割实验的不同方法的全局和局部可靠性图示例（§4.3）。I是图像，P是预测的未校准概率，S是预测的分段。图成对显示，其中左图为像素/体素的概率分布，右图为可靠性图（见附录x.F表示定义）。顶行显示了整个图像的不同方法的全局可靠性图。下面的三行对应于不同局部补丁的不同方法的局部可靠性图。注意，TS和IBTS可以跨整个图像很好地校准概率。从视觉上看，它们只比LTS略差然而，当涉及到本地补丁，LTS仍然可以成功地校准概率，而TS和IBTS不能。通常，LTS改进局部概率校准。更多结果在Appx。D.定义3. 局部温度缩放（LTS）：Qi（x，Ti（x））=maxσSM（zi（x）/Ti（x））（1），（3.6）l2 L其中Ti（x）2R+是图像和位置相关的。对于Ti（x）= 1，没有校准发生，因为logitszi（x）不要改变。对于Ti（x） >1、信心会重-这有助于抵消过度自信的预测。由于Ti（x），校准概率将接近1/L，这表示最大不确定性。对于Ti（x）<1、预测置信度将提高。这将是有助于抵消不自信的预测。最后，作为Ti（x） 0，则校准的概率将变为双-nary（0，1），其表示最小不确定性。由于Ti（X）为正，因此这种局部缩放不会改变不同类别上的概率的排序因此，分割精度保持不变。具有参数的另一个网络H可以用于学习从（zi，Ii）到Ti（x）的该局部映射。优化如下：其中F（✓，zi，Ii）被H（，zi，Ii，x）替换，其中x指示空间位置。最后得到Ti（x）=H（ξξ，zi，li，x）.图3说明了我们的高层次设计的概率计算-振动输入是logit图z，通常通过分割网络（Seg）获得然后将其与图像I-起传递到优化单元或预测单元以生成温度图。这些温度值用于校准logit图。校准的概率图3：经由（局部）温度缩放的概率校准的架构。预先训练的语义分割网络（Seg）的输出logit图被局部缩放以产生经校准的概率。OP表示经由深度卷积网络的优化或预测以获得（局部）温度值。该OP装置的详细信息可参见附录x。B.依次经由对校准的log-its的softmax获得。类别标签在此过程下不会改变，并且仍然可以通过确定具有最大预测概率的类别来获得。需时间约B详细说明了执行情况。培训详情见附录x。C.3.5. 理论证明为什么会发生误校准？人们通常使用对应于多项分布的负对数似然（NLL）的损失[3，15]（即，多类交叉熵损失）来训练语义分割网络，因为最小化它将最小化地面实况概率分布和预测概率分布之间的Kullback-Leibler（KL）散度。当且仅当预测的概率分布恢复地面真实概率分布时，才实现最小损失6894L我不2我[3，15]。对于语义分割，当P（x）=1且S（x）=S（x）时，NLL损失最小化，对于所有X. 当对于所有l，z（x）（S（x））>z（x）（l）时，分割误差最小化。L和lS（x）。这表明，即使分割误差最小化为零，NLL损失可能仍然是正的，因此优化将继续通过将P（x）推到1来将其减少到零，S（x）=S（x）。这说明了如何在语义分割的上下文中过度置信。请注意，这种过度自信也会导致低熵分布。如何消除误标定？如[52]所示，鼓励预测分布具有更高的熵可以帮助避免对深度CNN的过度自信预测，从而可以改善校准。因此，为了校准过度自信的语义分割网络，我们需要同时最小化NLL损失w.r.t.要学习的校准参数，同时确保校准概率的相应熵保持足够大，以概率地描述经验上可观察到的分割误差。请注意，我们出于与分割相同的原因最小化NLL损失（如上所述）：因为目标是恢复真实的概率分布。不同的是，对于分割，我们优化w.r.t.分割网络参数，而对于校准，我们优化w.r. t。校准模型参数。为什么我们要使用（本地）TS来校准概率？过度自信的网络通常表现出输出概率的熵远低于测试数据集上的交叉熵的现象，如[20，52]所示。因此，我们将过度自信定义为熵低于概率的交叉熵（Appx. （E），也就是说，不自信。具体来说，我们展示了Appx中的定理E.定理4. 当待校准的分割网络过度自信时，最小化NLLw.r.t.TS、IBTS和LTS导致也是校准概率w.r. t的最大化熵的解的解。过度自信条件下的TS、例如，对于TS，上述定理可以数学地表达如下：由上述NLL损失引起。通过NLL损失训练分割网络，然后通过温度缩放进行事后概率校准，是一种有效的方法，可以获得高分割精度，同时避免对所得标签概率的过度自信§4.1-§4.4显示了支持该声明的实验。4. 实验我们展示了我们提出的 TS方法在 COCO 数据集（§4.1），CamVid数据集（§4.2）和LPBA40数据集（人脑磁共振（MR）图像数据集）（§4.3）上进行语义分割的性能和行为我们进一步展示了我们的概率校准如何影响下游任务，通过在LPBA40上的多图谱分割的背景下对其进行探索（§4.4）。评估指标。为了评估概率校准的性能，我们使用五个度量，这是最初设计的分类，语义分割。具体而言，它们是可靠性图[11，53，56]，预期校准误差[54]（ECE），最大校准误差[54]（MCE），静态校准误差[57]（SCE）和自适应校准误差[57]（ACE）。为了使上述度量适用于语义分割，我们将每个像素/体素的预测概率视为单独的样本。我们使用10个相等大小（概率或样本大小）的箱来计算所有这些指标。在§4.4中，我们还使用平均表面距离（ASD）、表面Dice（SD）、最大对称距离的第95百分位数（95MD）和平均体积Dice（VD）来测量分割性能。详细定义见附录x。F. 基线方法。为了说明我们提出的LTS方法的有效性（参见等式1）。（3.6）），我们将其与标准TS和IBTS进行比较（见等式（3.4）），其中我们直接评估局部调整是否可以正确预测，以及它们是否有益。虽然存在其他概率校准方法，如§2中所讨论的，但大多数用于分类而不是用于语义分割。这是一个重要的区别。例如，在语义分割中，附近的像素/体素彼此相关，而这样的像素/体素彼此相关。关系不适用于分类。因此，简单地说，arg min-X Xlog σSM .zi（x）/TΣ（Si（x））将每个像素/体素划分为分类数据点不arg max-X不i=1x2XXσSMM. zi（x）Σ（l）日志σSM . zi（x）Σ（l）适当然而，为了完整性，我们仍然选择几个经典方法（§ 4.1）进行比较，即Iso-tonic regression（IsoReg）[68]、vector scaling（VS）[20]、ensemble temperaturescaling（ETS）[69]和Dirichlet cal.非对角正则化振动（DirODIR）[34]。不i=1 x2 l=1n L不此外，为了说明我们的方法也是有益的nS.T. X X Xz（x）（l） σ. zi（x）Σ（l）≥ X Xz（x）（Si（x））对于联合训练（§4.2），我们显示了之前的性能以及在使用LTS用于使用最大平均校准损失（MMCE）[36]和焦点损失（FL）[52]训练的模型所有其中T >0。因此，我们的三种不同的通过温度定标的概率校准变体（TS、IBTS、LTS）将抵消熵最小化方法通过网格搜索用最佳参数进行微调。详情见Appx。C.评价区域。由于标签边界很难nni=1 x2 l=1SMi=1x26895⇥⇥ ⇥为了分段，这些是预计会发生大多数相关误校准的区域（也参见图12）。①的人。对于精细分析，我们提取边界及其附近区域（即，远离边界多达2个像素/体素的区域）。在所有实验中，我们用边界来表示该评估区域。我们还评估标签区域内的性能（不包括背景，但包括相应的边界区域）。我们将这个大区域表示为All。预期绑定区域内的校准将比更大的All区域内的校准更具挑战性（因为预测更模糊）。需时间约G示出了3D脑MR图像的这些区域的示例。此外，为了评估图像分割的局部概率校准性能，我们还随机选择10个小块（对于2D，72 ×7272 72 72 72用于3D），并计算与整个图像相同的度量。我们报告了10个补丁的平均性能（表示为本地平均值）和最差情况下的性能（表示为本地最大值）。需时间约H显示了不同贴片尺寸的结果。请注意，“全部”区域中的结果反映了图像分割的整体校准性能;边界区域中的结果反映了图像分割的最具挑战性的校准性能;局部区域中的结果通常反映校准方法是否能够处理空间变化。下游MAS设置。多图谱分割（MAS）依赖于经由可变形配准将分割从一组图谱图像转移到目标图像。然后通过标签融合方法获得目标空间中的分割，该方法在注册的图谱标签之间建立共识。我们使用Wang等人的标签融合策略。[64]，其利用标签概率。因此，更好的校准概率应导致更好的融合准确度（即，分割精度）。统计考虑。为了表明概率校准的成功，我们使用Mann-Whitney U检验[45]来检查LTS结果与所有其他基线方法（UC、TS、IBTS等）结果我们使用Benjamini/Hochberg校正[4]进行多重比较，错误发现率为0.05。当LTS的性能显著优于相应方法时，结果以绿色突出显示（无颜色表示无统计学显著差异）。数据集。我们使用三个数据集进行实验：上下文中的公共对象（COCO）[42]数据集，剑桥驾驶标记视频数据库（ CamVid ） [7 ， 6] 和 LONI 概率脑图谱（LPBA40）[62]数据集。详细描述和培训/确认/测试划分见附录x。C.4.1. 基于COCO的概述：我们使用全卷积网络（FCN）[43]和ResNet-101 [23]骨干进行语义映射。COCO数据集上的tic分割。选项卡. 图1示出了我们用于校准这种分割模型的定量评估结果。在所有区域中，TS和IBTS不能改善校准性能，可能是因为COCO数据集中的自然图像很复杂，并且在类型和形状上变化很大，但TS对所有图像使用全局温度值。IBTS的平均表现略好于TS，因为它使用图像相关的温度缩放来捕获图像变化，尽管它不能解释所有区域中的空间图像变化。此外，我们观察到LTS通常显著优于经典方法，即。[2019 - 04 - 18][2019 - 04 - 19][2019 - 04][2019- 0这可能是因为这些经典方法独立地处理每个像素/体素，而不考虑它们在语义分割中的空间相关性。边界：分割网络的相对较低的分割性能表明这种空间变化可能很重要。具体而言，语义分割导致平均IOU为63.7%，这表明该数据集是多么具有挑战性。此外，除了VS [20]之外的所有方法都显示出边界区域的显著改进这表明：（1）这些边界区域共享共同的误校准模式，这可以通过大多数方法来捕获，以及（2）误校准效应确实如预期的那样在这些边界区域中更明显。局部：与所有区域不同，局部区域基于随机提取的图像小块。具体地，Local-Avg反映局部概率校准的平均性能，而Local-Max反映最未校准的贴片区域中的校准性能，从而测量最坏情况的校准结果。ECE、SCE和ACE的实验结果表明，LTS不仅可以标定图像的局部区域，而且可以标定整个图像区域。其他方法导致显著更差的校准。MCE：此外，MCE结果表明，与分类相比，语义分割的概率校准确实非常具有挑战性。这是因为分类注释通常非常准确，而语义分割的每像素/体素注释可能是困难的，特别是在对象边界处。例如，在极端情况下，如果一个像素/体素注释错误但预测正确（或反之亦然），则准确度为0，而预测置信度接近100%。这将导致基于分组的评价的MCE值接近100%。通常，这些异常值仅构成图像中所有像素/体素这种异常值的示例可以在图1B中观察到。在最低置信点处的2个未校准的贴片1和3，其中样本的百分比非常小，但是准确度-置信度差异不显著。因此，对于所有实验，我们预期MCE与分类概率校准文献相比可以非常高。LTS可以改善MCE值，但仍可能导致较大的MCE值。689624.31（18.63）][40.13（20.39）][30.05（17.45）][30.21（17.60）][25.35（12.80）][56.15（14.61）][30.60（12.48）][30.60（12.46）][17.69（11.91）][37.25（18.98）][27.72（11.37）][27.76（11.33）][17.60（11.91）][37.61（19.27）][27.69（11.38）][27.76（11.33）][[[13.84（11.67）][33.33（18.08）][23.60（12.11）][23.62（12.05）]12.66（12.87）][32.27（19.08）][22.04（13.05）][22.10（12.96）][3.70（2.45）][9.29（4.73）][10.89（2.61）][10.87（2.58）]#[2.43（1.64）][4.52（3.26）][3.45（1.94）][2.69（1.35）]UC7.26（0.60）12.789.48（0.77）7.25（2.73）[11.16（1.77）]5.08（2.48）[8.7712.65（0.76）19.99（1.10）8.44（0.84）18.69（1.27）12.67（3.14）[16.72（1.63）]8.54（3.39）[13.147.29（0.59）12.79（0.75）5.11（0.58）9.69（0.80）7.35（2.67）[11.22（1.78）]5.29（2.39）[8.902.30（0.39）3.52（0.55）VoteNet+LPBA40（640）TS [20]5.07（0.59）2.12（0.37）3.38（0.52）本系2.77（0.37）4.06（0.45）5.57（0.97）16.90（2.20）3.28（0.39）4.27（0.55）0.69（0.26）2.30（0.40）6.25（2.87）[10.23（1.58）]4.62（2.44）[8.21ECE（%）#MCE（%）#SCE（%）#ACE（%）#数据集方法所有边界局部平均[局部最大值][局部最大值]UC12.44（17.87）24.41[33.14（26.83）]14.48（20.89）27.66（22.23）38.61（7.22）34.90（23.89）20.24（18.75）24.97（7.07）20.05（21.67）20.19（18.73）（19.66）][39.66（24.30）][39.16（24.62）]IsoReg[68]12.55（14.22）1 6 . 2 7[29.26（22.36）]15.35（16.81）27.58（21.06）33.36（10.01）（20.05）22.28（15.35）17.20（6.42）21.65（17.77）22.19（15.35）16.40[43.24（23.70）][37.13（19.38）][36.69（19.69）]VS [20]12.70（17.22）24.60[29.89（17.28）]14.57（20.26）38.40（16.92）38.96[50.42（25.40）]41.20（20.23）18.05（18.25）25.00（6.90）18.13（21.07）17.98（18.25）24.55[32.31（18.43）][32.22（18.40）]FCNCOCO（1000[69]12.54（14.27）15.68（6.79）[29.41（22.44）]27.36（21.01）33.27（10.09）[42.72（24.68）]22.37（15.42）16.72（6.58）（19.41）]22.29（15.41）15.82（6.93）[36.85（19.75）]15.42（16.88）30.92（20.34）21.80（17.83）21.57（17.87）DirODIR [34]11.32（12.61）14.17（17.73）15.09（18.99）26.66（18.43）34.04（12.88）32.54（24.79）19.59（13.16）15.27（7.75）18.55（19.44）19.67 （13.15）[26.85（23.36）]（18.04）][34.48（23.17）][34.46（23.18）]TS [20]12.53（14.28）15.69（6.79）15.41（16.89）27.27（20.95）33.27（10.17）30.91（20.32）22.36（15.42）16.73（6.59）21.78（17.85）22.28（15.42）[29.37（22.47）][42.71（24.66）][37.34（19.42）][36.85（19.76）]本系11.92（13.83）16.35（7.13）14.80（16.63）26.25（20.26）33.29（9.96）31.19（19.97）21.68（15.31）17.31（6.90）21.06（17.81）21.62（15.29）[28.89（21.99）][43.45（23.27）][36.62（19.32）][36.09（19.63）]LTS10.04（11.54）1 3 . 4 4（6.23）[十二月二十六日（十四月七十四日）2 6 . 1 7 （15.67）35.18（12.31）31.66（17.66）16.92（13.89）14.53（6.18）16.78（16.38）16.91（13.93）15.16（5.92）16.85（16.45）UC7.79（4.94）22.79（5.76）9.23（10.63）22.64（12.72）30.42（10.65）30.33（16.63）9.91（5.02）24.62（5.69）13.16（11.72）9.90（5.01）24.43（5.75）1 3 . 1 5（11.73）TS[20]3.45（3.52）12.66（5.43）7.31（7.72）16.02（11.09）23.57（12.88）27.29（16.23）9.42（3.90）17.85（4.55）13.50（10.14）9.44（3.92）17.61（4.59）1 3 . 5 0（10.17）IBTS3.63（3.65）12.57（6.07）7.25（7.67）16.01（10.21）23时24分（13时）27.04（15.94）9.47（3.89）17.98（4.88）13.48（10.12）9.49（3.91）17.75（4.92）1 3 . 4 8（10.16）提拉米苏CamVid（233）LTS3.40（3.59）11.80（5.20）6.89（7.64）[16.61（11.81）]12.44（7.48）22.17（9.53）27.64（16.67）[37.92（20.47）]8.76（4.05）17.77（4.26）12.66（10.04）[26.78（11.22）]8.73（4.03）17.32（4.32）12.61（10.07）[26.76（11.22）]MMCE [36] 4.45（4.03）MMCE[36]+ LTS4 . 1 5 （3.54）- - 17.98（10.69）- - 7.28（3.80）- - 7.17（3.84）--FL[52]3.47（3.11）8 . 6 8 （5.45）9.01（7.19）14.77（13.28）17.62（13.53）28.37（15.86）7.46（3.43）14.08（4.49）14.09（9.78）7.43（3.45）13.63（4.57）1 4 . 0 6（9.83）FL[52]+ LTS3.13（3.64）1 1 . 0 6（5.55）[6.96（8.21）14.51（11.07）19.61（9.82）26.91（16.06）6.78（4.05）15.28（4.76）11.85（10.69）6.73（4.05）14.76（4.84）11.83 （10.73）UC5.58（1.16）14.538.74（1.07）5.62（0.95）[10.23（2.82）]2.24（1.93）[5.6610.71（2.10）19.18（1.71）4.37（3.73）14.90（1.74）11.74（4.55）[19.46（4.75）]6.68（4.44）[11.037.34（1.04）15.01（1.63）6.47（0.91）10.06（1.10）8.24（3.08）[12.98（2.88）]7.817.13（1.02）14.64（1.62）U-NetLPBA40（40）TS [20]1.43（0.74）6.30（0.90）9.46（1.06）IBTS1.47（0.77）8 . 7 9 （1.14）4.40（3.65）1 4 . 9 6 （1.75）6.4610.10（1.17）[ 11.51（2.54）]7.80（2.55）6.29（0.90）9.508.20（3.06）[12.93（2.83）]7.77（2.55）[11.49LTS0.90（0.51）7 . 0 0 （1.23）1.90（1.38）3.51（3.42）12.33（1.96）5.80 （3.68）6.27（0.93）8.53（1.04）7.60（2.49）6.09（0.92）7.93（1.08）7 . 5 6 （2.49）LTS0.71（0.33）4 . 1 8 （0.73）1.64（0.94）1.46（0.67）11.55（1.68）3.54 （2.02）1.24（0.49）4 . 8 7 （0.83）2.52（1.26）0.30（0.24）2.14（0.43）1 . 9 0 （1.00）表1：针对4个不同任务的4个不同分割模型的校准结果。结果以平均值（std）格式报告每个数据集名称下面的括号中列出了测试样本UC表示未校准结果。表示越低越好。最好的结果是粗体的，绿色表示相对于t的统计学显著差异。LTS（FL+LTS forCamVid）.请注意，由于GPU内存限制，MMCE和MMCE+LTS的结果是针对下采样图像的，因此不能直接与其他方法进行比较。包括它们的目的是表明LTS可以改善MMCE。LTS通常在所有区域、边界区域和局部区域中的几乎所有指标上实现最佳性能其他结果见Appx。J.4.2. CamVid上的提拉米苏语义分割一般：我们在CamVid数据集上使用Tiramisu分割模型[28选项卡. 1示出了用于校准该分割模型的定量结果。与COCO数据集的结果相比，所有四个指标都大大降低。这主要是因为CamVid中的图像相反，来自COCO数据集的图像在不同的图像中显示不同的对象。参见附录。我想了解详情。结果与COCO数据集一致。具体地说，（1）LTS可以校准所有区域概率以及图像中的局部区域;（2）对于大多数比较，LTS总体上显著优于TS和IBTS。联合预测和校准：此外，我们表明，我们的方法有利于联合优化预测和校准的方法[36，52]。MMCE [36]和FL [52]在训练语义分割网络时都考虑了误校准。选项卡. 1表明，与未校准的结果相比，MMCE和FL工作显著。icantly更好此外，利用LTS作为事后校准，校准性能进一步一致地改进（除了FL的边界区域）。这些发现与[52]中使用TS的结果一致作为一种事后校准方法，作者表明， MMCE+TS 和 FL+TS 的工作始终优于MMCE和FL。因此，这有利于我们的LTS作为一个成功的事后校准方法分割。4.3. LPBA 40上的U-Net分割概述：我们使用定制的3D U-Net [9]对LPBA 40数据集进行分割选项卡. 1示出了用于校准该分割模型的定量结果。所有三种方法在本实验中相对较好地校准了概率这可能是因为图像已经被仿射配准到公共图谱空间，这减少了图像的变化，并且可以使TS、IBTS和LTS更容易在All区域和Boundary区域两者中校准这也可以解释计算机视觉数据集和医学图像之间的性能差异。6897#“！！| |方法ASD（mm）#SD（%）“ 95MD（mm）#VD（%）”VC（所有）（%）VC（边界）（%）表2：基于校准概率的MAS标记融合结果。（）表示值越低（越高）越好。mm表示毫米。UC表示未校准结果。VC表示未校准方法与相应方法之间的体素注释变化：w。是从错误体素注释到正确体素注释; c w是从正确体素注释到错误体素注释。速率是根据可能的更改数中的更改数计算的（注意，许多体素注释不能改变，因为所有图谱注释给出相同的标签，因此概率的改变不会改变体素注释。LTS通常略微改善分割在LTS概率校准之后，JLF比TS和IBTS改变更多的体素此外，在TS和IBTS上改善了正确转换和不正确转换之间的这表明JLF可以产生具有更好的概率校准的更好的分割，并且表明下游任务通常可以受益于更好的校准。在选项卡中设置数据集。1.一、参见附录。我想了解详情。TS和IBTS之间的校准性能之间的差异相对较小。然而，LTS在大多数指标方面仍然表现最好。空间变化：此外，当涉及到局部区域分析时，LTS始终工作得最好。图2通过可

下载后可阅读完整内容，剩余1页未读，立即下载