基于形状模型的报警系统评估分割结果质量

123 浏览量更新于2023-10-12 收藏 919KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10652基于形状模型分割算法的报警系统刘丰泽1，夏英达1，杨东2，Alan Yuille1，徐大光21约翰霍普金斯大学2NVIDIA公司摘要学习系统通常很难正确预测训练数据中从未发生的罕见事件，分割算法也不例外。同时，由于数据规模大和人力资源有限的趋势，人工检查每个案例以定位故障变得不可行。因此，我们建立了一个报警系统，将设置警报时，分割结果可能是不满意的，假设没有相应的地面真实掩模提供。一个合理的解决方案是将分割结果投影到低维的CT图像地面实况预测特征空间;然后学习分类器/回归器来预测它们的质量。受此启发，在本文中，我们学习了地面实况（重建）重建（Reconstruction）不确定特征空间使用的形状信息，这是一个强大的先验知识在不同数据集之间共享，对输入数据的表观变化具有鲁棒性形状特征使用仅用地面真实掩模训练的变分自动编码器（VAE）网络来在测试过程中，形状不好的分割结果不能很好地拟合先前的形状，导致较大的损失值。因此，VAE能够在不使用地面实况的情况下评估看不见的数据的分割结果的质量最后，我们在一维特征空间中学习一个回归量来预测分割结果的质量。我们的报警系统进行了评估的几个最近的国家的最先进的分割算法的三维医疗分割任务。与其他标准的质量评估方法相比，我们的系统consideration提供了更可靠的预测分割结果的质量。1. 介绍分割算法经常在罕见事件上失败，并且很难完全避免这种问题。由于训练数据数量有限，可能会发生罕见事件。处理这个问题最直观的方法是增加训练数据的数量。然而，标记数据通常很难收集，特别是在医学领域，例如，完全注释3D医学CT扫描需要专业的放射学知识和几个小时的工作。与此同时，即使图1. NIH胰腺分割CT数据的可视化。GT和预测之间的骰子是47。06（真实骰子），而来自VAE的预测和预测（重建）之间的骰子是47。25（假骰子）。我们的方法使用假骰子预测以前的真正的骰子，这通常是未知的推理阶段的实际应用。这个例子显示了这两个骰子分数是如何相互关联的。与此相反，现有方法（第2节中介绍）中的不确定性主要分布在预测掩码的边界上，这使得在检测故障情况时它是一个模糊的信息。大量的标记数据通常无法涵盖所有可能的情况。在此之前，已经提出了各种方法来更好地利用训练数据，例如更加关注罕见事件的采样策略[25]。但它们仍然可能在训练数据中从未发生的罕见事件上失败另一个方向是增加分割算法对罕见事件的鲁棒性。[10]提出了贝叶斯神经网络模型的不确定性作为一个额外的损失，使算法更强大的噪声数据。这类方法使算法对某些类型的扰动不敏感，但算法仍可能对其他扰动失效。由于很难完全防止分割算法的失败，我们考虑用检测来代替：建立一个与分割算法配合的报警系统，当系统发现分割结果不够好时，报警10653假设不存在对应的地面真实掩模，由于大数据规模和有限的人力资源的趋势，这通常在模型部署之后是真实的这项工作也被称为质量评估。在这一领域已经提出了几项[9]应用贝叶斯神经网络捕捉分割结果的不确定性，并根据其值进行报警。然而，该系统也遭受罕见事件，因为分割算法经常在一些罕见事件上自信地犯错误[27]，如图1所示。[12]提出了一种将分割结果投影到特征空间中并在此低维空间中学习的有效方法。他们人工设计了几个启发式功能，例如，大小、强度，并且假定这些特征将指示分割结果的质量。在将分割结果投影到低维特征空间后，他们学习了一个分类器来预测其质量，该分类器直接区分好的分割结果和坏的分割结果。在一个合理的特征空间中，当分割算法失败时，失败输出的表示应该远离地面真值。因此，主要的问题是这些“好”的特征是什么以及如何捕捉它们。[12]中选择的许多特征实际上与分割结果的质量关系不大尺寸在我们的系统中，我们选择的形状特征，这是更有代表性和鲁棒性，因为分割对象（前景的体积掩模）通常有稳定的形状在不同的情况下，即使他们的图像外观可能会有很大的变化，特别是在3D。因此形状特征可以为判断分割结果的质量提供强先验信息，即，坏的分割结果往往具有坏的形状，反之亦然。然而，从分割掩模空间建模先验比在图像空间中建模要容易得多。形状先验可以在不同的数据集之间共享，而图像强度等特征受许多因素的影响。因此，形状特征不仅可以处理罕见事件，而且可以处理图像空间中的不同数据分布，这显示了强大的泛化能力和迁移学习的潜力。我们建议使用变分自动编码器（VAE）[11]来捕获形状特征。VAE是在地面真值模板上训练的，然后我们定义损失函数的值作为分割结果的形状直观地说，在VAE训练之后，具有不良形状的不良分割结果对于VAE来说只是罕见的事件，因为它仅使用正常形状分布下的地面真实掩码进行训练因此，他们将有更大的损失价值。从这个意义上说，我们利用了学习算法在罕见事件上表现不佳的事实。（详细内容见第二节）3.第三章。1），损失函数，称为变分下限，被优化以近似函数logP（Y），培训过程。因此，在训练之后，分割结果Y的损失函数gi的值接近l〇 gP（Yi ），因此是形状特征的良好定义。在本文中，我们提出了一种基于VAE的报警系统分割算法，如图2所示。分割结果的质量可以很好地预测使用我们的系统。为了验证我们的报警系统的有效性，我们测试了多种分割算法。这些分割算法在一个数据集上训练，并在其他几个数据集上测试，以模拟罕见事件发生的时间。分割算法在其他数据集（而不是训练数据集）上的性能差异很大，但我们的系统仍然可以准确地预测它们的质量我们比较了我们的系统与其他几个报警系统在上述任务和我们的优于他们的大幅度，这表明了形状特征的报警系统中的重要性和巨大的权力VAE在捕捉的形状特征。2. 相关工作质量评估：[10]采用贝叶斯神经网络（BNN）对任意和认知的不确定性进行建模。之后，[13]应用BNN计算医疗分割任务的任意和认知不确定性。[9]利用BNN对另一种不确定性进行建模--基于分割结果的熵。他们通过对加权的像素不确定性求和来计算怀疑分数。其他方法如[24][20]使用基于注册的方法进行质量评估。该算法首先将待测图像与一组参考图像进行配准，然后将配准结果转化为分割模板，寻找最匹配的模板。然而，与所有参考图像配准可能很慢，特别是在3D中。此外，基于配准的方法几乎不能在数据集或模态之间转移。[4]和[7]使用无监督的方法来估计分割质量使用几何和其他功能。然而，它们在医疗环境中的应用尚不清楚。[12]引入了形状和外观的特征空间来描述分割。其系统中的形状特征包括体积大小和表面积，这与分割结果的质量没有必然的关系。同时，[19]尝试了一种简单的方法，使用图像分割对直接回归质量。[3]使用深度网络的特征进行质量评估。异常检测：质量评估也与分发外（OOD）检测有关。与调查相关的研究论文见[17]。该领域的先前工作[8][14]利用分类器最后一层的softmax输出来计算分布外水平。然而，在我们的情况下，对于分割方法，我们只能得到一个体素的分布水平，10654图2.我们报警系统的结构。在训练步骤1中，训练VAE以重建地面实况掩码。在训练步骤2中，VAE的参数是固定的，并且回归器被训练以预测真实的Dice分数。F表示用于生成用于训练回归量的预测掩码的准备分割在测试期间，F被替换为待评估的目标分割算法。右侧显示了所用VAE的结构。（Conv：步长为1的卷积层。向下：步幅为2的卷积层。Deconv：以步幅1转置卷积层。上图：转置卷积层，步幅为2。FC：全连接层。k：卷积核数。）关于该结构的更多细节见第4节。3 .第三章。用这些方法。如何计算作为实体的整个掩模的分布外水平成为另一个问题。此外，分割算法通常可以以高置信度正确预测大多数背景体素，使得这些体素上的分布水平不具有代表性。自动编码器：自动编码器（AE）作为一种自动学习数据表示的方法，已广泛应用于异常检测[30]、降维等许多领域。与需要使用RBM进行预训练的[26]不同，AE可以按照端到端的方式进行训练。[18]我们从点云形式中学习了形状表示，而我们选择体积形式作为更自然的方式来与分割任务合作。[16]利用AE来评估预测和地面实况之间的差异[28]使用AE探索形状特征[2]通过AE利用脑MRI图像的重建误差，[22]使用GAN进行异常检测，但有时难以生成逼真的图像e.G. 腹部CT扫描[23]使用AE和一类SVM通过对健康样本的无监督学习来识别OCT图像中的异常区域。与AE相比，变分自动编码器（VAE）[11]在潜在空间上增加了更多约束，这防止了学习微不足道的解决方案，例如。恒等映射[1]应用VAE对MNIST和KDD数据集进行异常检测在本页中-每一个我们采用VAE学习的体积掩模的形状表示，并使用质量评估任务。3. 基于VAE的报警系统我们首先正式定义我们的任务。将数据集表示为（X，Y），其中Y是X的标签集。我们将（X，Y）分为训练集（Xt，Yt）和验证集（Xv，Yv）。假设我们有一个在Xt上训练的分割算法F。通常我们使用Yv来验证F在Xv上的性能。现在我们想在没有Yv的情况下完成这个任务。形式上，我们试图找到一个函数L，使得L（F（X），Y）=L（F，X;ω）（1）其中L是用于计算分割结果F（X）相对于地面实况Y的相似性的函数，即，F（X）的性质。如何设计L从F和X中提取有价值的信息，是主要的问题。召回当X是罕见事件时，故障可能发生。但由于图像空间结构的复杂性，检测图像X是否在训练数据的分布范围内是非常困难的。在基于不确定性的方法[9]和[13]中，通过对其参数进行采样并计算输出的不确定性来对F的属性进行编码。不确定性确实有助于预测质量，但性能强烈依赖于F。它要求F具有贝叶斯结构，VAE-KConv3x3x3（8）ConvBlock（16）ConvBlock（32）ConvBlock（64）ConvBlock（128）（1）第一章最多2x2x2（8）DeconvBlock（16）DeconvBlock（32）DeconvBlock（64）DeconvBlock标准：FCKZ~∞（0，∞K）ConvBlock（k）DeconvBlock（k）向下2x2x2（k）向上2x2x2Conv3x3x3（k）Deconv3x3x3（k）Conv3x3x3（k）Deconv3x3x3（k）Conv3x3x3（k）Deconv3x3x3（k）步骤1：训练VAE-K重建地面实况地面实况遮罩VAE损失真实感面具（重建）第2步：修复VAE-K，训练回归器以预测真实骰子预测掩码重建掩模CT图像真正的骰地面实况遮罩假骰子VAE-KVAE-K解码器回归损失编码器回归器10655|22F（X）|+的|Y|不在我们的假设范围内。同样，对于训练良好的F，不确定性将主要分布在分割预测的边界上。因此，我们将上述公式改为L（F（X），Y）=L（F（X）;ω）（2）通过添加这个约束，我们仍然从F和X中获取信息，但不是以直接的方式。最直观的想法是直接在分割结果上训练回归器来预测质量。但主要问题是，用某种分割算法F训练的回归参数与F（X）的分布高度相关，不同的F（X）的分布不同。根据[12]的思想，我们开发了一种两步法。首先，我们将分割结果F（X）编码到特征空间中，表示为S（F（X）;θ）。其次，我们从特征空间中学习来预测F（X）。最后它变成了L（F（X），Y）=L（S（F（X）;θ）;ω）（3）3.1. 变分自编码器的形状特征在第一步中，我们从用基掩码Y∈ Yt训练的变分自编码器（VAE）中学习形状的特征空间，即。用S（Y;θ）表示Y的形状有多完美。在这里，我们将分割掩模的形状定义为掩模在体积form.我们假设正规标号Y服从某个分布P（Y）。对于一个预测掩模y_n，它的质量应该与P（Y=y_n）有关。我们的目标是使用S（Y;θ）来估计函数P（Y）。回想VAE理论，我们希望找到一个最小化差异的估计函数Q（zQ（z）和P（z）之间的关系|其中，z是变量，我们想要将Y编码到其中的潜在空间，即优化KL[Q（z）]||P（z|Y）]= E z<$Q[log Q（z）− logP（z|（4）KL是Kullback-Leibler散度。通过用Q（z）替换Q（z|Y），最后推导出VAE的核心方程[6]。logP（Y）− KL [Q（z|Y）||P（z|Y）]=E zQ[log P（Y |Z）] − KL[Q（z）|Y）||P（z）]（5）其中P（z）是我们为z选择的先验分布，通常为高斯分布，而Q（z|Y）、P（Y|z）分别对应于编码器和解码器。一旦Y给定，logP（Y）是一个常数。因此，通过优化RHS，即logP（Y）的变分下限，我们优化，KL[Q（z|Y）||P（z|Y）]。然而，我们感兴趣的是P（Y）。通过将LHS中的第二项与所有我们选择E zQ[logP（Y|Z）]− KL[Q（z）|Y）||P（z）]为S（Y;θ）。S（Y;θ）是我们用于训练VAE的损失函数，训练过程实际上是学习参数θ以最佳拟合Y分布上的logP（Y）。因此，在训练VAE之后， S（Y;θ）成为自然的近似值，logP（Y）的值，其中θθ是学习参数。所以我们可以使用S（Y;θ）作为我们的形状特征。在该方法我们在训练VAE时使用Dice Loss [15]，这是广泛的用于医学分割任务。S的最终形式是2 |g（z）·Y|S（Y; θ）= Ez<$N（µ（Y），（Y））|Y |2个以上|g（z）|2-λ KL[N（μ（Y），λ（Y））||N（0，1）]（7）其中，编码器μ、λ和解码器g由θ控制，λ是平衡这两项的系数。第一项是Y和g（z）之间的Dice3.2. 用于质量预测的形状特征第二步，对形状特征进行回归，预测质量.我们假设形状特征足够好以获得可靠的质量评估，因为直觉思维，对于分割结果F（X），logP（F（X））越高，F（X）的形状越好，因此越高L（F（X），Y）是，反之亦然。形式上，采取第3节中的形状特征。我们可以通过学习ω来预测质量，L（F（X），Y）=L（S（F（X）;θθ）;ω）（8）这里，通过使用训练数据Yt中的标签训练VAE来学习参数θt，然后在训练步骤2期间固定参数θ t。我们选择L作为一个简单的线性模型，因此我们要优化的能量函数为E（S（F（X）; θ）; a，b）= ||aS（F（X）; θ）+b−L（F（X），Y）||2（九）我们只使用线性回归模型，因为实验表明形状特征和分割结果的质量之间存在很强的线性相关性L是2骰子的系数是足够的，即。 L（F（X ），Y）=2|F（X）·Y|.3.3. 培训战略在第一步中，仅使用训练数据中的标签来训练VAE在第二步中，θ被固定为θ。为了学习a，b，标准的方法是优化3中的能量函数。2使用训练数据上的分割结果，即Σ在等式（5）中的RHS项，我们重写训练亲，最小化arg min甲乙丙（X，Y）∈（X，Y）||二、||2.10656EYY KL[Q（z|Y）||P（z|Y）]t t（十）不=E YYt |log P（Y）− S（Y; θ）|（六）这里，我们用来学习a，b的分割算法F被称为准备算法。如果F在Xt上训练，10657不不不t tt1.00.80.60.40.20.0DirectRegression1.00.80.60.40.20.0熵Alea Epis不确定性1.00.80.60.40.20.01.00.80.60.40.20.0VAE-128（我们的）残差标准差（STD）、皮尔逊相关（P.C.）和Spearman真实质量（Dice系数）和预测质量之间的关系4.1. 数据集和分割算法0.00.20.40.60.81.01.00.80.60.40.20.00.00.20.40.60.81.01.00.80.60.40.20.00.00.20.40.60.81.00.00.20.40.60.81.01.00.80.60.40.20.00.00.20.40.60.81.01.00.80.60.40.20.00.00.20.40.60.81.00.00.20.40.60.81.01.00.80.60.40.20.00.00.20.40.60.81.01.00.80.60.40.20.00.00.20.40.60.81.00.00.20.40.60.81.01.00.80.60.40.20.00.00.20.40.60.81.01.00.80.60.40.20.00.00.20.40.60.81.0我们采用了三个公共医疗数据集和四个最近发表的分割算法。所有数据集均由门静脉期腹部三维CT图像组成，胰腺区域完全注释。CT扫描显示分辨率为512×512×h体素，具有不同的体素尺寸。• NIH胰腺-CT数据集（NIH）NIH临床中心对53名男性和27名女性受试者进行了82次腹部3D CT扫描[21]这些主题是-由放射科医师从没有主要腹部病变或胰腺癌病变的患者中选择。图3.该图显示了我们的预测Dice评分（x轴）与实际Dice评分（y轴）。对于每一行，在最左边的数据集上测试分割算法每行中的四个图显示了如何通过4种不同的方法评估分割结果F（X）的质量总是高的，因此提供较少的信息来回归a，b。为了克服这一点，我们对Xt上的F采用折刀训练策略.我们先把Xt分成X1和X2。然后我们分别在Xt\X1和Xt\X2上训练两个版本的F，即F1和F2。然后，将优化函数更改为Σ Σarg min甲乙丙k=1，2（X，Y）∈（Xk，Yk）• 医学细分十项全能（MSD）1医学十项全能挑战收集420（281训练+139测试）腹部三维CT扫描从纪念斯隆凯特琳癌症中心。许多受试者在胰腺区域内具有癌症病变。• Synapse数据集2多图谱标记挑战提供50个（30个训练+20个测试）腹部CT从一项正在进行的结肠直肠癌化疗试验和一项回顾性腹疝研究的组合中随机选择的扫描。未使用最后两个数据集的测试数据在我们的实验中，因为我们没有他们的注释。我们选择的分割算法是V-Net [15]，||二、||2.（十一）通过在测试集上模拟F的性能，解决了上述问题。最准确的方法是对F进行留一法训练，但时间消耗是不可接受的，根据实验，两次分裂是足够当训练完成后，我们可以在任何分割算法G和数据X上进行测试，以预测质量Q=aS（G（X）;θ）+θb，其中a和θb是使用上述策略的步骤2的学习参数4. 实验结果在本节中，我们测试了我们的报警系统上的几个最近的算法自动胰腺分割，在公共医疗数据集上训练我们的系统实现了对分割结果质量的可靠预测。此外，当分割算法在其他未看到的数据集上测试时，警报系统仍然有效。与基于不确定性的方法和直接回归方法相比，我们表现出更好的质量评估质量评估结果采用平均绝对误差（MAE）进行评价3D Coarse2Fine [29]、DeepLabv3 [5]和具有贝叶斯结构的3D前两种算法基于3D网络，而DeepLab是基于2D的。采用贝叶斯结构的3D Coarse2Fine与基于不确定性的方法进行比较，并将其称为贝叶斯神经网络（BNN）。4.2. 基线我们的方法与三个基线方法进行了比较。其中两个基于不确定性，最后一个直接将回归网络应用于预测掩模以回归方程（2）中的质量：• 熵不确定性。[9]使用贝叶斯推断计算像素-视觉预测熵然后在整个图像上对不确定性求和以得到怀疑分数，该怀疑分数将代替（8）中的形状特征以回归质量。总和由到预测边界的距离加权，这在某种程度上简化了不确定性的偏差分布。他们的方法是在2D图像中完成的，在这里，我们只是将其转移到3D图像，没有本质上的困难。1http://medicaldecathlon.com/index.html2https：//www.synapse.org/#！Synapse：syn3193805/wiki/217789迪卡侬数据集Synapse数据集NIH数据集10658MaeNIH数据集STD P.C.S.C.MaeMSDSTD数据集P.C.S.C.Mae突触STD数据集P.C.S.C.直接回归6.307.93-18.36-1.5014.4712.5072.2670.178.2210.8278.2971.39直接回归+图像11.7413.672.133.1621.8720.835.539.2213.8017.6536.8339.80Jungo等人[9]第一章3.513.9882.2161.9511.8616.3171.2477.719.4520.6173.3279.93Kwon等人[13个国家]4.074.7182.4175.9312.6818.3170.4277.779.7722.3074.8081.13VAE-2（53.93）5.316.4556.6657.1414.8610.7381.2177.639.6311.2379.6668.19VAE-16（72.46）4.394.8462.1076.699.839.5684.8683.936.298.3089.5782.56VAE-128（76.00）2.893.6081.0882.868.149.1486.2385.024.937.2090.9286.07VAE-1024 （79.65）3.504.1573.7880.908.429.2485.8185.175.718.0088.6185.98表1.我们的方法和基线方法之间的比较目标分割（即，BNN）算法的自动评估，我们已经尝试了不同的VAE结构（例如，VAE-128用于128维潜在空间）。在所有方法中，VAE-128实现了最高的性能。VAE方法后面的括号中的数字是在验证数据上重建地面真值掩码的平均Dice分数通常情况下，通过更准确地重建地面真实掩模，评估结果会更好，但过于准确的重建可能会损害评估能力（考虑到恒等映射）。• 不确定性和不确定性。 [13]将不确定性分为任意不确定性和认识不确定性。我们实现两者术语，并以相同的方式计算怀疑分数，[9]因为原始文件没有提供一种方法。两个怀疑分数用于预测质量。• 直接回归。采用回归神经网络直接学习预测掩模的质量。它将分割掩码作为输入和输出预测质量的标量。4.3. 实现细节VAE的结构如图2所示我们在每个卷积层上应用ReLU激活应用于每个层，除了完全连接的层用于平均值，输出层使用sigmoid函数激活。我们在直接回归方法中使用的结构是VAE的编码器部分，因此它们对于比较是公平的。对于数据预处理，由于体素大小因病例而异，这会影响全景的形状和分割的预测，因此我们首先对所有CT扫描和注释掩模的体素大小进行重新采样，1mm×1mm×1mm。为了训练VAE，我们在注释掩码上应用简单对齐。我们雇佣了一个立方体边界框，该边界框足够大，可以包含整个胰腺区域，以胰腺质心为中心，然后裁剪出体积和标签掩码，并将其调整为固定大小128×128×128。我们只采用了一个简单的对齐，因为人体姿势通常是固定的，当采取CT扫描，例如站立，使得器官不会严重旋转或变形。对于分割预测，我们还将预测前景裁剪和调整为128×128×128，并将其馈送到VAE中以捕获形状特征。在培训过程中，我们采用-10的轮换，沿x、y、z轴的0度和10度（共27个条件）以及注释上小于5体素的随机平移屏蔽为数据增强。这种轻微的干扰可以增强数据分布，但保持我们的注释掩码的对齐属性。我们尝试了不同的潜在空间尺寸，最后将其设置为128。我们发现不同维数的潜在空间的VAE在质量评价中具有超参数-VAE目标函数中的eterλ设置为2−5，以平衡小的DiceLoss值和大的KL Divergence值。我们通过SGD优化器训练我们的网络训练VAE的学习率固定为0。1.一、我们的框架和其他基线模型都是使用TensorFlow构建的所有实验均在NVIDIA Tesla V100GPU上运行第一个训练步骤总共完成了20000次迭代，大约需要5个小时。4.4. 主要结果和讨论我们将NIH数据分为四部分，其中三部分用于训练分割算法和VAE;剩余的一部分与来自MSD和Synapse数据集的所有训练数据一起形成验证数据，以评估我们的评估方法。首先，我们使用NIH数据集的训练标签学习VAE的参数然后，我们选择BNN作为第3节中提到的准备算法。3 .第三章。第三节的培训策略。3应用于其上，以学习回归参数。对于所有的基线方法，我们采用相同的训练策略，在我们的方法，并选择BNN作为准备算法进行公平的比较。最后，我们预测的质量分割掩模的验证数据的所有分割算法。请注意，所有分割算法仅在NIH训练集上训练。表1通过评估验证数据集的BNN分割结果，比较了我们的方法和三种基线一般来说，我们的方法在所有数据集上实现了最低的误差和变异。在我们的实验中，BNN算法达到82. 十五，五十七。10和66在NIH、MSD和Synapse数据集上测试了36个平均Dice评分。在NIH10659MaeSTD3D粗到细P.C.S.C.骰子MaeSTD3D虚拟网络P.C.S.C.骰子NIH3.464.0989.9585.4179.382.573.2491.3584.5181.21MSD10.029.4589.6787.5451.889.349.6086.5282.5055.90突触6.249.0092.3984.2962.105.677.2891.6580.1164.93DeepLabV3BNNMaeSTDP.C.S.C.骰子MaeSTDP.C.S.C.骰子NIH5.355.8363.3478.8081.532.893.6081.0882.8682.15MSD9.349.6086.5282.5054.968.149.1486.2385.0257.10突触5.677.2891.6580.1161.034.937.2090.9286.0766.36表2.不同的目标分割算法的结果进行评估，我们的报警系统在不同的数据集。骰子专栏是指在不同数据集上使用groundtruth测试的分割算法的平均Dice得分，供参考。我们的系统实现了与表1中相当的性能（另请参见右下角的单元格），尽管数据集之间的分割性能差异很大无需调整参数，我们的报警系统可以直接应用于评估其他分割算法地面实况遮罩预测掩码重建掩模caseID03144009412360真实骰子0.320.440.470.620.730.850.89假骰子0.570.500.470.650.720.850.83图4.我们可视化我们的评估系统对不同质量的分割结果的性能。真实的骰子分数从左到右增加。假Dice分数与真实Dice高度相关，因此我们可以通过对假Dice应用简单回归来获得对真实Dice的良好预测。在其他数据集的某些情况下会失败，我们的报警系统仍然工作得很好，而无需调整其他数据集上的VAE和回归器的参数。更详细的结果如图3所示。我们可以清楚地观察到，我们的方法提供了更准确的质量评估结果。对于基于不确定性的方法，如图1所示，不确定性通常分布在预测掩模的边界上，但不分布在缺失部分或假阳性部分上，并且可传递性不强，因为它依赖于分割算法。对于直接回归方法，我们使用VAE-1024的编码器部分，然后是2层全连接。直接回归方法的训练数据是F1、F2分别在X1、X2上的扩展试验数据，待评估的站点算法和待测试的数据集都发生了变化，这表明了很强的可移植性。为什么它工作：在实验中，我们使用S（F（X）;θ）作为回归变量的输入。然而，我们发现 S （ F（X）;θ）的第二项与真实骰子的相关性较低（因此在图 2 中，我们只将伪骰子放在那里，这是 S （ F（X）;θ）的第一项）。这意味着VAE可以将具有不良形状的掩模编码为潜在空间中的正常点，使得重建是正常的形状，这使得假骰子低。我们在图4中可视化了一些情况，以显示VAE的这一特性对于不好的分割预测，来自VAE的重建掩模确实看起来更像是一个胰腺。如第3节所述。3 .第三章。因此，直接回归法与我们的方法相同，但我们的方法显示出更好的预测质量的能力。表2显示了我们的方法对4种不同分割算法的质量评估结果。BNN的结果更好，因为我们用于训练回归量的准备算法也是BNN。没有调整参数，我们的方法仍然是可靠的，当段-4.5. 消融实验我们还对不同结构的VAE进行了烧蚀实验，并对没有强形状先验的前景进行了评估。肿瘤区域不同的VAE结构：表1还示出了具有不同维度的潜在空间的VAE的结果。VAE算法具有更大的潜在空间，可以重建真实掩模10660MSD胰腺MAE STD P.C. S.C.MaeMSD数据集肿瘤STD P.C.S.C.直接回归7.488.6456.4844.4923.2029.8145.5045.36Jungo等人[9]第一章7.248.7954.3849.2926.5729.78-23.87-20.23Kwon等人[13个国家]6.948.5462.1561.2026.1429.2414.6114.70VAE-1024（我们的）6.037.6368.4059.6520.2123.6060.2463.30表3.评价胰腺和肿瘤分割的结果胰腺的MAE值优于表1中的值，因为在MSD数据集中有更多的训练样本。对于肿瘤评估，所有的方法都做得不好，但我们的方法揭示了真实质量和预测质量之间的最强相关性。由于肿瘤检测本身是一项非常困难的任务，因此肿瘤的分割预测往往具有较大的方差。报警系统需要更仔细的设计来处理这种大的变化。更好，这通常表示更强的评估能力。而对于VAE-1024，重建效果最好，但预测效果不如VAE-128。我们还尝试了更大的潜在空间，如VAE-10000，它可以几乎完美地重建地面真实掩模。但它更像是一个身份映射，使得评估任务无法进行与纹理结合：由于我们的报警系统只使用分割掩模的信息，纹理信息，这可能是重要的，在评估分割质量，是失踪。我们用一个非常直观的设置进行了测试，即，对于直接回归方法，我们将图像和分割掩模连接在一起，并将其用作训练回归网络的输入结果如表1“直接回归+图像”所示我们看到，在训练数据数量相同的情况下，性能甚至比仅将分割掩码作为输入更差我们认为这是因为图像的复杂结构会混淆回归网络的学习质量。[22]和[2]分别在OCT和脑MRI数据上开发了基于纹理的方法，而在我们的实验中，很难生成逼真的腹部CT扫描。因此如何更好地将纹理与分割掩模相结合是另一个值得探索的方向。评估具有较大形状变化的对象：我们还比较了基线方法和我们的方法在评估分割的对象不太稳定的形状，如。肿瘤MSD数据集还提供了胰腺肿瘤的体素化标记。代替仅评估肿瘤预测（需要肿瘤边界框的准确定位，这已经是一项艰巨的任务），我们同时评估肿瘤和胰腺分割，使得我们可以使用胰腺的边界框。由于这是一个多类问题，我们适应VAE采取的独热编码分割掩模作为输入，并改变原来的骰子损失多类骰子损失。同样地，我们调整基线方法，使它们能够适应这个多类评估问题.对于直接回归方法，它被训练为同时回归胰腺Dice评分和肿瘤Dice评分。对于基于不确定度的方法，计算胰腺和肿瘤的不确定度。我们将MSD数据集随机分为两部分，一部分用于训练，另一部分用于验证。为在培训过程中，我们仍然采用第3 .第三章。3 .第三章。我们还训练了一个胰腺和肿瘤分割的BNN作为目标算法进行评估，它达到了72。52和35胰腺和肿瘤复发的Dice评分平均为34分。详细比较如表3所示。对于基于不确定性的方法，由于分割算法往往错误地分割出肿瘤，因此肿瘤分割效果较差，这也证明了基于不确定性的方法在质量评价上的局限性。对于直接回归方法，由于训练数据较多（增强前为60→140），数量比表1中的好，这是常见的for a learning学习system系统.我们的方法仍然是最好的，尽管它并不令人满意，因为有许多情况下，肿瘤分割的Dice评分为0，仅从分割掩模很难预测质量请注意，我们的方法的真实质量和预测质量之间的相关性要强得多，这意味着即使具有弱形状先验，我们的方法仍然可以从分割掩模中捕获一些有用的信息。5. 结论在本文中，我们提出了一个基于VAE的报警系统的分割算法，预测的质量分割结果，而不使用地面真相。我们声称形状特征在预测分割结果的质量方面是有用的。为了捕捉形状特征，我们首先使用地面真实掩码训练VAE。我们利用罕见事件通常会获得较大损失值的事实，并根据测试时间内的损失值成功地检测出分布外的形状。第二步收集分割算法对训练数据的分割结果，提取分割结果的形状特征，学习回归参数。通过对预处理算法进行折刀训练，可以得到更精确的回归参数。我们提出的方法优于标准的基于不确定性的方法和直接回归方法，并具有更好的可移植性，以其他数据集和其他分割算法。可靠的质量评估结果证明了从VAE中捕获的形状特征是有意义的，并且形状特征对于分割任务中的质量评估是10661引用[1] 安镇元和赵成俊基于变分自动编码器的重构概率异常检测。2015.[2] Christoph Baur，Benedikt Wiestler，Shadi Albarqouni，and Nassir Navab.深度自动编码模型用于脑MR图像中的非监督异常分割。CoRR，abs/1804.04488，2018。[3] S. Bosse，D. Maniry，K. Mller，T. Wiegand和W.萨梅克用于无参考和全参考图像质量评估的深度神经网络IEEE图像处理学报，27（1）：206[4] RehtienChabrier，BrunoEmile，ChristopheRosenberger，and Helene Laurent.图像分割的无监督性能评价EURASIP Journal on Applied Signal Processing，2006：217[5] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834[6] 卡尔·道施。变分自动编码器教程。统计，1050：13，2016。[7] 韩高，唐云伟，景林海，李慧，丁海峰。一种新的遥感图像无监督分割质量传感器，17（10）：2427，2017年。[8] 丹·亨德里克斯和凯文·金佩尔。用于检测神经网络中错误分类和分布外示例的基线。arXiv预印本arXiv：1610.02136，2016。[9] Alain Jungo ， Raphael Meier ， Ekin Ermis ， EvelynHerrmann，and Mauricio Reyes.不确定性驱动的健全性检查：在脑肿瘤术后空洞分割中的应用。CoRR，abs/1806.03106，2018。[10] 亚历克斯·肯德尔和亚林·加尔贝叶斯深度学习在计算机视觉中需要哪些不确定性？神经信息处理系统的进展，第5574-5584页，2017年[11] Diederik P Kingma和Max Welling。自动编码变分贝叶斯[J].2013年。[12] Timo Kohlberger 、 Vivek Singh 、 Chris Alvino 、 ClausBahlmann和Leo Grady。评估分割误差，无需实际情况。在MICCAI，第528-536页。Springer，2012.[13] Yongchan Kwon 、 Joong-Ho Won 、 Beom Joon Kim 和Myunghee Cho Paik。分类中使用贝叶斯神经网络的不确定性量化：应用于缺血性卒中病变分割。2018年。[14] Shiyu Liang，Yixuan Li，and R Srikant.提高神经网络中分布外图像检测的可靠性。 arXiv 预印本 arXiv ：1706.02690，2017。[15] Fausto Milletari Nassir Navab和Seyed-Ahmad Ahmadi。V-net：用于体积医学图像分割的全卷积神经

下载后可阅读完整内容，剩余1页未读，立即下载