递归级联网络用于无监督医学图像配准

131 浏览量更新于2023-10-16 收藏 2.21MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10600递归级联网络用于无监督医学图像配准赵胜宇2，3董跃2张义超3徐岩1，3张1北京航空航天大学生物科学与医学工程学院和北京2清华大学3微软研究院zsyzzsoft@gmail.com，dongyue8@gmail.com，echang@microsoft.com，xuyan04@gmail.com摘要我们提出了递归级联网络，一个通用的架构，使学习深度级联，可变形的图像配准。所提出的架构设计简单，可以建立在任何基础网络上。运动图像依次通过每个级联进行变形，最后与固定图像对齐;这个过程是递归的，每个级联都学会执行当前变形图像的渐进变形。整个系统是端到端的，以无监督的方式联合训练。此外，通过递归架构，可以在测试期间多次迭代地应用一个级联，这接近每个图像对之间的更好拟合。我们评估我们的方法对3D医学图像，变形配准，灰是最常用的。我们证明，递归级联网络实现一致的，显着的增益和优于国家的最先进的方法。随着训练次数的增加，平均成绩有增加的趋势，但没有达到极限。代码可在https://github.com/zsyzzsoft/Recursive-Cascaded-Networks上获得。1. 介绍形变图像配准已经有了大量的研究工作，并引起了人们的重视。一对图像之间的非线性对应关系是通过预处理建立*通讯作者。这项工作得到了中国科学技术部国家科技重大项目2017 YFC 0110903，微软研究院eHealth项目，国家自然科学基金81771910的支持，北京航空航天大学软件开发环境国家重点实验室SKLX-2017 ZX-08中央大学基础研究基金，中国111项目B13003资助。在所述平滑度约束下指示变形场在传统算法中，通常建议采用迭代方法[2，3，4，7，10，18，27，52]，其中将每次迭代作为渐进优化问题进行计算。图像配准在深度学习技术方面引起了越来越多的兴趣。一个密切相关的领域是光流估计，这本质上是一个2D图像配准问题，但流场在对象之间是不连续的，并且跟踪主要是关于具有罕见色差的运动需要猜测的遮挡和折叠区域在光流估计中是不可避免的（但在可变形图像配准中是不期望的）。自动生成的数据集（例如，Flying Chairs [24]，Flying Things 3D [41]）对于在这种环境中监督卷积神经网络（CNN）有很大的帮助[24，29，30，54，55]。一些研究还试图堆叠多个网络。他们以非递归的方式将不同的任务和输入分配给每个级联，并逐个训练它们[30，45]，但它们的性能接近只有几个（不超过3个）级联的极限。另一方面，当处理不连续性和遮挡时，级联可能没有太大帮助。因此，通过直觉，我们建议具有递归架构的级联网络适合可变形配准的设置基于学习的方法也被建议作为变形图像配准的一种方法。与光流场估计不同，通常需要图像强度的模糊对应的主体间配准。一些初始工作依赖于通过传统算法[14，56]或模拟对象内变形[36，53]获得的密集地面实况流，但由于训练数据的质量有限，它们的性能受到限制。最近提出了与传统算法性能相当的无监督学习方法[8，9，19，20，37，38]。它们仅需要变形的运动图像和固定图像之间的相似性测量，而梯度可以通过可微分变形操作（也称为“可微分变形操作”）反向传播空间变换10601级联仿射级联ɸ1级联ɸ2级联ɸ3级联ɸ4运动图像Im级联ɸ10级联ɸ9级联ɸ8级联ɸ7固定图像我是图1.用于配准肝脏CT扫描的递归级联网络的示例。通过每个级联递归地和渐进地扭曲运动图像，最后对准到固定图像。每个Φk表示预测的流场，将先前的扭曲图像和固定图像两者作为输入。仅显示图像切片，但请注意，配准实际上是在3D中执行仿射12345678910可以在现有基础网络上建立有限数量的级联，以推进现有技术水平。我们的架构与现有级联方法之间的区别在于，我们的每个级联通常将当前扭曲图像和固定图像作为输入（相比之下，至[30，45]），并且仅在最终扭曲图像上测量相似性（与[19，37]相反），使得所有情况都能够实现。图2.流场的组成，对应于图1所示的示例。最终的流量预测由初始仿射变换和φ1，. . .，φn，其中的每一个仅执行相当简单的位移。我们可以看到，顶部的级联主要学习全局对齐，而底部的级联起着细化的作用流场的绘制是将流场位移的三个分量（x，y，z白色区域表示零位移。前[32]）。然而，大多数建议的网络被迫进行简单的预测，这被证明是一个负担，当处理复杂的变形，特别是与大位移。DLIR [19]和VTN [37]也堆叠它们的网络，尽管两者都限于少量级联。DLIR逐个训练每个级联，即，在固定先前级联的重量之后。VTN联合训练级联，而所有连续扭曲的图像通过与固定图像相比的相似性来测量这两种训练方法都不允许中间casades渐进地配准一对图像。这些不合作的级联学习自己的目标，而不管其他级联的存在，因此即使进行更多的级联也很难实现进一步的改进他们可能意识到网络级联可能解决这个问题，但没有有效的方法来训练深度网络级联进行渐进式对齐。因此，我们提出了递归级联体系结构，它鼓励无监督的训练，cades学习渐进的路线合作。图1示出了应用构建在基础网络VTN的10个可变形级联上的所提出的架构的示例。从概念上讲，我们制定的配准问题，确定一个参数化的流量预测函数，输出一个密集的流场的基础上输入的图像对。该函数可以递归地定义在变形的运动图像上，具有基本上相同的函数性。代替以直接的方式训练函数，最终预测可以被认为是递归预测的流场的组合，而每个级联仅需要学习小位移的简单对齐，其可以通过更深的递归来细化。图2验证了我们的概念。我们的方法还允许使用共享权重级联，这可能在不引入更多参数的情况下实现性能增益。总之，我们提出了一种用于变形图像配准的深度递归级联架构，该架构便于无监督的端到端学习，并独立于基础网络实现一致的增益;还开发了具有直接测试时间改进的共享权重级联技术。我们基于不同的评估指标（分割和标志）和跨图像类型（肝脏CT扫描和脑部MRI）的多个数据集进行了广泛的实验。2. 相关工作级联方法已经涉及计算机视觉的各种领域，例如，级联位姿回归10602MM2M运动图像翘曲图像′翘曲图像′′⋯级联1流场1级联2流场分析仪⋯固定图像固定图像固定图像固定图像图3.我们的递归级联架构的插图。圆圈表示合成，其中通过预测流场（φ）重建先前的变形图像（I（k-1）），从而产生后续变形图像（I（k））。无监督的端到端学习是K M与以前的工作相比，仅以I（n）和IMF逐步改进从监督训练数据中学习的姿势估计[23]，级联分类器加速了对象检测的过程[25]。深度学习也受益于级联架构。例如，深层变形网络[57]级联两个阶段并预测地标定位的变形。其他应用包括对象检测[13]、语义分割[17]和图像超分辨率[16]。还存在指定用于医学图像的若干作品，例如，MRI [6，49]、肝脏分割[46]和有丝分裂检测[15]的3D图像重建。请注意，在这些作品中通常提出了浅，非递归网络级联。在配准方面，传统算法迭代优化一些共同的能量函数[2，3，4，7，10，18，27，52]。这些方法通常也是递归的，即，在迭代期间执行关于当前变形图像的类似功能的对准。迭代最近点是一种用于配准点云的迭代递归方法[12，58]，其中在每次迭代中匹配最接近的点对，并解决最小化差异的刚性变换。在可变形图像配准中，大多数传统算法基本上都是这样工作的，但方式要复杂得多。标准对称归一化（SyN）[4]在迭代期间最大化使用B样条[48]优化自由形式变形是另一种标准方法。最近提出了基于学习的方法。超-我们的基准方法）。VoxelMorph [8]和VTN [37]通过使用解卷积层[44]预测密集流场实现了更好的性能，而DLIR 仅预测由三阶B样条核插值的稀疏位移网格VoxelMorph仅在脑MRI数据集上评估了他们的方法[8，9]，但在其他数据集上显示出不足，例如后期工作的肝脏CT扫描[37]。此外，VTN提出了一种初始卷积网络，该网络在预测变形场之前执行仿射变换，通过取代传统的仿射阶段来实现真正的端到端最先进的VTN和VoxelMorph被选为我们的基础网络，建议仿射网络也被集成为我们的顶级级联。据我们所知，这些工作都没有意识到训练更深的级联会提高可变形图像配准的性能。3. 递归级联网络设Im、If分别表示运动图像和固定图像，两者都定义在d维空间上。流场是一个映射φ：φ→φ。对于变形图像配准，合理的流场应该是连续变化的，并防止折叠。该任务是构造一个流量预测函数F，该函数将Im、If作为输入，并预测一个将Im与If对齐的稠密流场。我们级联这个过程递归地执行注册的扭曲图像。扭曲的形象，正是流场和运动图像的合成，即vised方法需要在标记数据上花费大量精力，难以满足现实需求，导致性能有限[14，56，36，53]。无监督方法是从概念上说′=φm（一）建议解决这个问题。几项初步工作显示了无监督学习的可能性 [19 ， 20 ， 38 ， 50] ，其中 DLIR [20] 与SimpleElastix [40]（Elastix [35]的多语言扩展）中实现的B样条方法表现相当，被选为一种F（Im，If）=φ<$F1（φ<$Im，If），（2）其中F1可以与F相同，但是通常是不同的流量预测函数。这种递归在理论上可以无限地应用。翘曲图像（）下一页流场图像相似性我10603MMMM在该递归之后，运动图像被连续地扭曲，使得最终预测（可能具有大位移）能够被分解成级联的、渐进的细化（具有小位移）。一个级联基本上是一个流量预测函数（fk），第k个级联预测的流场为与正规化损失。由可区分的合成运算符（即，翘曲操作），递归级联网络可以学习在没有监督的情况下协作地执行渐进对准。据我们所知，没有以前的工作通过堆叠超过3个可变形配准网络来实现良好的性能，（k）φk=fk（I（k−1），If）的情况。（三）部分原因是他们一个接一个地训练它们[19]（然后性能很难提高），或者他们测量每个扭曲图像的相似性[37]（然后网络Im表示被第一k个cas扭曲的运动图像cades.图3描述了建议的架构。假设总共有n个叶栅，最终输出是所有预测流场的组合，即，几乎不能学习渐进式对齐）。正则化损失基本上是φ1，. . .，φn，因此是必要的。每个预测的流场都受到L2变化损失的惩罚，如[8，37]所述。F（Im，If）=φn···仿射级联在VTN [37]中引入了其自身的正则化并且最终的变形图像通过以下方式构造：I（n）= F（Im，If）<$Im.（五）3.1. 子网络在本文中，每个fk被实现为一个卷积神经网络.每个网络被设计成基于输入的变形图像和固定图像预测自身上的可变形流场。 f1，. . . 在网络体系结构上可以不同，但是为了方便起见，使用公共基础网络无疑是足够好的设计。这些级联可以在每个级联上学习不同的网络参数，因为一个级联被允许学习测量的一部分或具体地执行某种类型的对准。请注意，输入到网络的图像是离散化的，输出流场也是离散化的，因此我们通过多线性插值（或简单的三维图像三线性插值）来处理它们，并通过最近点插值来处理越界索引[37]。类似于U-Net [31，47]的架构广泛用于可变形配准网络，例如VTN [37]和VoxelMorph [8]。这样的网络由编码器，接着是具有跳过连接的解码器组成。编码器帮助提取特征，而解码器执行上采样和细化，以密集预测结束。对于医学图像，通常的情况是，两个扫描可以通过初始刚性（或仿射）变换粗略地对准VoxelMorph [8]假设输入图像是由外部工具预仿射的，而VTN [37]集成了一个有效的仿射配准网络，其性能优于传统阶段。因此，我们还嵌入仿射配准网络作为我们的顶级级联，它的行为就像一个正常的，除了它只允许预测仿射变换，而不是一般的流场。3.2. 无监督端到端学习我们建议，所有级联可以通过仅仅测量I（n）和If之间的相似性来联合训练，以-3.3. 共享权重级联在递归期间可以重复应用一个级联也就是说，多个级联可以由相同的参数共享，这被称为共享权重级联。在训练好n-级联网络之后，我们仍然可以在测试期间应用额外的共享权重级联。例如，我们可以在I（n）结束时将所有级联复制为不可分割的整体，即，共2n个级联，与流量预测函数f1，. . . ，fn，f1，. . . ，fn分别我们开发了一种更好的方法，在每个级联之后立即插入一个或多个共享权重级联，即，通过将每个fk代入其r倍，构造出全r×n这种方法将在以后的实验中被证明是有效的。当输出流场的质量可以通过进一步的细化得到改善时，测试期间的共享重量级联是一种选择。然而，我们注意到，这种技术并不总是得到积极的收益，并可能导致过度变形。递归级联仅确保变形的运动图像和固定图像之间的相似性增加，但是如果图像太完美地匹配，则聚集流场变得不太自然。我们在训练中不使用共享权重级联的原因是，在我们使用的平台（Tensor-flow [1]）中，在梯度反向传播期间，共享权重级联会消耗与非共享权重级联一样大的额外要训练的级联的数量受到GPU内存的限制，但是当数据集足够大以避免过拟合时，允许学习不同的参数，它们会表现得4. 实验4.1. 实验设置我们主要基于VTN [37]的网络架构构建递归级联网络，VTN是用于可变形图像配准的最先进方法。注意10604VTN已经堆叠了几个级联的可变形子网，并且单个级联被用作我们的基础网络。多达10个级联VTN（不包括仿射级联）联合训练使用我们提出的方法。为了展示我们架构的通用性，我们还选择Vox- elMorph [9]作为另一个基础网络。我们训练多达 5 个级联的VoxelMorph，因为每个级联的VoxelMorph消耗更多的资源。我们在两种类型的3D医学图像上评估我们的方法对于肝脏CT扫描，我们训练和测试递归级联网络，用于成对的受试者到受试者的配准，这代表了允许固定图像任意的一般目的对于脑部 MRI 扫描，我们遵循VoxelMorph [8]的实验设置，其中每个移动图像都被配准到一个固定的图谱，称为基于图谱的配准。这两种设置在医学图像配准中是常见的。实施. 继承自使用Tensorflow 1.4 [1]实现VTN [37]的自定义扭曲操作，相关系数被用作相似性度量，而正则化损失的比率与它们保持相同。我们训练我们的模型，使用批量大小为4，在4张12G NVIDIA TITAN XpGPU卡上。训练阶段使用Adam优化器运行105次迭代[33]。学习率最初为10−4，在6×104步之后减半，在8×104步之后再次减半。基线方法。VTN [37]和VoxelMorph [8]是最先进的基于学习的方法。我们级联了它们的基本网络，并与原始系统进行了比较。此外，我们还比较了SyN [4]（与仿射阶段一起集成在ANT [5]中）和B样条[48]（与仿射阶段一起集成在Elastix [35]中），它们被证明是可变形图像配准的最佳传统方法[8，34，37]。我们使用VTN [37]中建议的参数运行ANTsSyN和Elastix B样条评估指标。我们通过Dice评分[22]量化性能，该评分基于扭曲的运动图像和固定图像之间的一些解剖结构的分割，如[8，19]中所做的那样。两个区域A、B的Dice得分被公式化为：骰子（A，B）= 2 ·|A∩B|.（六）|一|+的|B|完全重叠的区域的Dice得分为1。Dice分数明确地测量两个区域之间的一致性如果注释了多个解剖结构，我们计算每个解剖结构的Dice分数并取平均值。此外，地标注释在某些数据集中可用，并且可以用作辅助度量。我们计算固定图像的地标和移动图像的变形地标之间的平均距离，也在VTN[37]中引入。4.2. 数据集对于肝脏CT扫描，我们使用以下数据集：• MSD [42].该数据集包含用于分割不同目标对象的各种类型的医学图像由于可能包括肝脏，因此选择肝脏肿瘤（70次扫描，不包括LiTS）、肝脏血管（443次扫描）和胰腺肿瘤（420次扫描）的CT扫描• BFH（引入VTN [37]），92次扫描。• SLIVER [28]，20次扫描，肝脏分割真实数据。此外，选择作为地标的6个解剖关键点由3名专家医生注释，并且我们将其平均值作为地面实况。• LiTS [39]，131次肝脏分割地面实况扫描。• LSPIG（Liver Segmentation of Pigs，由哈尔滨医科大学附属第一医院提供），包含来自猪的17对CT扫描，以及肝脏分割基础事实。每一对来自一只猪（围手术期）和不（术前）13 mm Hg气腹压力。在MSD和BFH的组合上训练无监督方法图片大全SLIVER（20×19图像对）和LiTS（131×130图像对）用于常规评估，而LSPIG被认为是具有挑战性的数据集，需要推广。仅34例受试者内图像对LSPIG中的每一对均来自同一头猪（术前到围手术期，或反之亦然）进行评价。对于脑部MRI扫描，我们使用以下数据集：• ADNI [43]，66次扫描。• ABIDE [21]，1287次扫描。• ADHD [11]，949次扫描。• LPBA（LONI概率脑图谱）[51]。该数据集包含40个扫描，每个扫描都带有56个解剖结构的分割基础事实ADNI、ABIDE、ADHD用于训练，LPBA用于测试。所有56个解剖结构均通过平均Dice评分进行评价。对于基于图谱的配准，在我们的实验中，LPBA中的第一次扫描被固定为图谱10605方法丝戴斯湖Dist.LiTS骰子LSPIG骰子LPBAAvg. 骰子时间（秒）GPU CPUANTs SyN [4，5]Elastix B样条[35，48]0.895（0.037）0.910（0.038）12.2（5.7）12.6（6.6）0.862（0.055）0.863（0.059）0.825（0.063）0.825（0.059）0.708（0.015）0.675（0.013）--748115[9]第一章0.883（0.034）14.0（4.6）0.831（0.061）0.715（0.090）0.685（0.017）0.20 17VoxelMorph（reimplem.）20.913（0.025）13.1（4.7）0.870（0.048）0.833（0.057）0.688（0.015）0.15 145-级联体素形态0.944（0.017）12.4（4.9）0.903（0.055）0.849（0.062）0.708（0.015）0.41 693×5级联VoxelMorph0.950（0.014）11.9（4.9）0.905（0.065）0.842（0.066）0.715（0.014）1.09201[37]第37话0.942（0.020）12.0（4.9）0.897（0.049）0.846（0.064）0.701（0.014）0.13 2610级联VTN0.953（0.014）10.8（4.9）0.909（0.060）0.855（0.060）0.716（0.013）0.25 872×10级联VTN0.956（0.012）10.2（4.7）0.908（0.070）0.849（0.063）0.719（0.012）0.42179表1.传统方法（ANTs SyN和Elastix B样条），我们的基线网络（VoxelMorph和VTN）以及我们提出的具有和不具有共享权重级联的递归级联网络r×n-级联是指在测试过程中，使用我们提出的共享权级联方法，每个可变形级联重复应用r对于肝脏数据集（SLIVER、LiTS和LSPIG），Dice评分测量肝脏分割的重叠和Lm。Dist.是指6个标注地标之间的平均距离。Avg. Dice是指大脑数据集LPBA的所有56个分割解剖结构中的平均Dice分数。括号中为实例间的标准差1用于训练和测试的图像使用ANT [5]进行预仿射（如VoxelMorph [9]中所需2使用集成仿射网络重新实现，并使用我们的方法进行训练。3表示一个仿射配准子网络加上三个稠密可变形子网络[37]。在稍后的图谱分析中，显示出不失一般性。我们参考VTN [37]和VoxelMorph [8]执行标准的预处理步骤。在裁剪目标对象周围的不必要区域后，将原始扫描重新采样为128×128×128体素。对于肝脏CT扫描，应用简单的基于阈值的算法来找到用于裁剪的粗略肝脏边界框对于脑部 MRI 扫描，首先使用FreeSurfer [26]去除头骨这些体积被可视化用于质量控制，以便手动删除很少处理不良的图像。（评价数据集的概述见补充材料。）输入图像蚂蚁SyNElastixB样条VoxelMorph（reimplem.）VTN（ADDD）10级联VTN2×10级联VTN4.3. 结果表1总结了我们与最先进方法相比的整体性能。不同数据集的运行时间大致相同，因此我们在搭载NVIDIA TITAN Xp GPU和Intel Xeon E5-2690 v4 CPU的SLIVER上进行了测试。没有发现ANT或Elastix的GPU实现，也没有在以前的作品中[5，8，19，35，37]。图4在大脑数据集LPBA中的一个示例上可视化了这些方法。（更多示例请参见补充如表1所示，递归级联网络在我们所有的数据集中都比现有的方法有显著的增益。更重要的是，所提出的架构独立于基础网络，不限于 VTN [37] 和VoxelMorph [8]。虽然级联的数量会导致运行时间的线性增加，但10级联的VTN仍然可以在与基线网络相当的（GPU）时间内运行，这表明了我们架构的效率。图4.大脑数据集LPBA中示例的可视化。颜色较深的网格表示较低的高度。通过投影呈现5个所选解剖结构的分割。蓝色区域代表固定图像的分割，红色区域代表运动图像或变形图像。级联数。表2显示了不同递归级联数的结果，选择VTN或VoxelMorph作为我们的基础网络。如表所示，递归级联网络独立于基础网络实现了一致的性能增益。我们的3级联VTN（表2中）已经优于VTN（ADDD）（表1中），尽管它们具有类似的网络架构，主要是因为我们的中间级联更好地学习渐进式对齐，只有在最终扭曲图像上绘制的相似性损失。图5绘制了我们的结果，以更好地说明增长趋势。请注意，我们的体系结构需要一个线性的时间增量，但级联一个小规模的基础网络，如VTN是相当有效的。流扭曲固定弯曲弯曲移动网格分割10606架构丝戴斯湖Dist.LiTS骰子LSPIG骰子LPBAAvg. 骰子时间（秒）GPU CPU仅仿射0.794（0.042）14.8（4.7）0.754（0.059）0.727（0.054）0.628（0.017）0.08 0.41-级联体素形态0.913（0.025）13.1（4.7）0.867（0.050）0.833（0.057）0.688（0.015）0.15 142-级联体素形态0.933（0.021）12.8（4.8）0.888（0.048）0.845（0.057）0.699（0.014）0.21 273-级联体素形态0.940（0.018）12.6（5.0）0.897（0.049）0.849（0.060）0.706（0.014）0.28 404-级联体素形态0.943（0.017）12.5（5.1）0.900（0.052）0.851（0.058）0.707（0.014）0.35 545-级联体素形态0.944（0.017）12.4（4.9）0.903（0.055）0.849（0.062）0.708（0.015）0.41 69单级联VTN0.914（0.025）13.0（4.8）0.870（0.048）0.833（0.054）0.686（0.014）0.10 10双级联VTN0.935（0.020）12.2（4.7）0.891（0.045）0.843（0.061）0.697（0.014）0.12 18三级级联VTN0.943（0.018）11.8（4.7）0.900（0.045）0.850（0.060）0.703（0.014）0.13 264级联VTN0.948（0.016）11.6（4.8）0.906（0.047）0.852（0.063）0.708（0.014）0.15 355级联VTN0.949（0.015）11.5（4.8）0.908（0.051）0.853（0.064）0.709（0.014）0.17 476级联VTN0.951（0.015）11.3（4.9）0.910（0.050）0.852（0.064）0.712（0.014）0.18 577级联VTN0.951（0.015）11.2（4.9）0.908（0.055）0.852（0.061）0.712（0.013）0.20 658级联VTN0.952（0.014）11.1（4.7）0.910（0.056）0.854（0.059）0.714（0.013）0.22 759级联VTN0.953（0.014）10.9（4.7）0.910（0.059）0.851（0.064）0.716（0.013）0.23 9010级联VTN0.953（0.014）10.8（4.9）0.909（0.060）0.855（0.060）0.716（0.013）0.25 87表2.不同递归级联数的比较。n-级联表示基本网络的n个递归级联，不包括仿射级联。括号中为实例间的标准差骰子0的情况。950我是Dist.20块0十七岁5骰子0的情况。90的情况。9250的情况。9000的情况。8750的情况。8500的情况。825n12345678 9 10十五岁012个。510个。07 .第一次会议。5n12345678 9 100的情况。80的情况。70的情况。60的情况。5n1 2 3 45678 9 10(a) 肝脏数据集上的Dice评分。(b) SLIVER上的地标距离(c) 骰子得分在LPBA。图5.我们的结果相对于基础网络VTN的级联数（n）的曲线图，对应于表2中的数据。X轴是对数标度，因为它更好地反映了趋势。(a)绘制了肝脏数据集（SLIVER、LiTS和LSPIG）上评价的Dice评分。（b）绘制在SLIVER上评估的标志距离，而6个标志银灯LSPIG10607的距离（实例间的平均值）用各自的颜色分散，线代表平均值。(c)绘制了在大脑数据集LPBA上评估的Dice分数，而56个解剖结构的Dice分数（实例间的平均值）分别分散，线代表平均值。共享权重级联。更深的叶栅可以直接使用重量分配来构造。正如我们所建议的，一个r×n-级联网络在测试过程中连续重复联合训练的n个级联中的每一个r次。还需要线性时间增量.这种技术确保了扭曲的运动图像和固定图像之间的相似性增加，但我们注意到，它并不总是获得积极的性能增益。表3给出了共享权重级联网络的结果，以及图像相似性（本文使用相关系数）。图像的相似性总是像我们预期的那样增加。较浅的级联网络相对于较深的级联网络从该技术中受益更多，因为图像仍然没有很好地配准（具有相对低的相似性，如表中所示）。少在LiTS和LSPIG数据集上的预期结果可能意味着这种附加技术具有有限的普遍性。请注意，共享权重级联通常比联合训练的对应方表现更差。超过3倍的分担重量级联很可能会影响质量（这与以前的研究部分一致）。这进一步证明了端到端学习的重要性。瀑布与渠道与深入VoxelMorph（VM）[9]建议卷积层中的通道数量可以加倍以获得更好的性能。我们将此变体（VM x2）与联合训练的2级联VM以及共享权重的2×1级联VM进行比较，如表4所示。VM x2的性能比他们建议的原始方法更好，但比我们的两种级联方法都差。10608级联骰子丝我是Dist.相似性骰子LiTS相似性LSPIG骰子相似性Avg. 骰子LPBA相似性1× 10.914（0.025）13.0（4.8）0.7458（0.0396）0.870（0.048）0.7386（0.0468）0.833（0.054）0.7527（0.0515）0.686（0.014）0.9814（0.0021）2× 10.932（0.020）12.6（5.0）0.8108（0.0289）0.886（0.048）0.8045（0.0376）0.840（0.057）0.8162（0.0392）0.694（0.014）0.9845（0.0016）3× 10.937（0.019）12.5（5.1）0.8333（0.0248）0.888（0.050）0.8272（0.0336）0.839（0.057）0.8369（0.0338）0.695（0.013）0.9854（0.0014）4× 10.938（0.018）12.5（5.2）0.8444（0.0227）0.887（0.053）0.8381（0.0314）0.837（0.057）0.8467（0.0305）0.692（0.013）0.9857（0.0011）5× 10.939（0.018）12.5（5.2）0.8510（0.0214）0.886（0.056）0.8446（0.0300）0.835（0.058）0.8518（0.0289）0.686（0.013）0.9857（0.0010）1× 20.935（0.020）12.2（4.7）0.8270（0.0297）0.891（0.045）0.8209（0.0367）0.843（0.061）0.8435（0.0369）0.697（0.014）0.9854（0.0017）2× 20.947（0.017）11.6（4.8）0.8779（0.0198）0.900（0.049）0.8715（0.0282）0.847（0.063）0.8919（0.0243）0.701（0.014）0.9885（0.0011）3× 20.948（0.016）11.5（4.8）0.8930（0.0171）0.900（0.054）0.8865（0.0254）0.845（0.063）0.9039（0.0211）0.697（0.014）0.9895（0.0008）1× 30.943（0.018）11.8（4.7）0.8584（0.0245）0.900（0.045）0.8535（0.0318）0.850（0.060）0.8774（0.0282）0.703（0.014）0.9876（0.0014）2× 30.951（0.015）11.2（4.8）0.8977（0.0168）0.905（0.052）0.8927（0.0246）0.852（0.061）0.9102（0.0210）0.710（0.014）0.9904（0.0009）3× 30.951（0.015）11.1（4.9）0.9088（0.0146）0.904（0.058）0.9037（0.0225）0.850（0.062）0.9189（0.0188）0.711（0.014）0.9916（0.0007）1× 50.949（0.015）11.5（4.8）0.8926（0.0186）0.908（0.051）0.8893（0.0254）0.853（0.063）0.9088（0.0223）0.709（0.014）0.9894（0.0010）2× 50.954（0.013）10.8（4.9）0.9215（0.0131）0.908（0.061）0.9184（0.0198）0.851（0.063）0.9334（0.0164）0.715（0.013）0.9921（0.0006）3× 50.954（0.013）10.6（5.0）0.9308（0.0115）0.906（0.067）0.9278（0.0182）0.845（0.065）0.9406（0.0145）0.715（0.013）0.9930（0.0005）1× 100.953（0.014）10.8（4.9）0.9163（0.0145）0.909（0.060）0.9129（0.0211）0.855（0.059）0.9290（0.0174）0.716（0.013）0.9918（0.0008）2× 100.956（0.012）10.2（4.7）0.9384（0.0106）0.908（0.070）0.9355（0.0171）0.849（0.062）0.9471（0.0132）0.719（0.012）0.9942（0.0005）3× 100.956（0.012）10.2（4.7）0.9461（0.0094）0.905（0.076）0.9434（0.0158）0.841（0.068）0.9534（0.0112）0.717（0.012）0.9951（0.0004）表3.在基础网络VTN上构建的递归级联网络的结果，具有不同次数（1×，2×，3×或更多）的共享权重级联。通过变形的运动图像和固定图像之间的相关系数来测量相似性。第三）LPBA数据集中的地图集，如表5所示。这些结果表明，我们的性能是一致的，鲁棒性的选择图集。表4.与VoxelMorph（VM）的其他变体进行比较，包括VM x2（将每个卷积层的特征计数加倍），VM-double（将每个级别的卷积层数量加倍）和VM xx 2（将编码器-解码器架构级联式加倍）。方法公司介绍1Avg. 骰子图集2Atlas3ANTs SyN0.708（0.015）0.717（0.011）0.707（0.015）Elastix B样条0.675（0.013）0.684（0.011）0.670（0.013）体素变形0.688（0.015）0.694（0.010）0.678（0.015）5-级联体素形态0.708（0.015）0.714（0.011）0.702（0.014）3×5级联VoxelMorph0.715（0.014）0.721（0.012）0.713（0.013）VTN（ADDD）0.701（0.014）0.709（0.011）0.695（0.015）10级联VTN0.716（0.013）0.723（0.010）0.712（0.013）2×10级联VTN0.719（0.012）0.725（0.011）0.716（0.013）表5.在LPBA中不同地图集上的实验另一方面，VM x2中的参数数量是VoxelMorph（以及2×1级联VM）中的参数数量的4倍，是2级联VM中的参数数量的2倍然而，人们可能会怀疑，仅仅是更深的网络是否就能做到这一点。为此，我们通过将每个U-net级别的卷积层数量与2级联VM相比，它们具有大致相同数量的参数，但性能优于相当大的这个实验表明，我们的改进基本上是基于所提出的递归级联架构。而不是简单地引入更多的参数。Atlas分析。基于图谱的配准的性能可能因所选图谱而异作为比较，我们在另外两个模型上重新训练模型（第二个和第三个）。架构丝骰子我是Dist.LiTS骰子LSPIG骰子LPBAAvg. 骰子体素变形0.913（0.025）13.1（4.7）0.867（0.050）0.833（0.057）0.688（0.015）虚拟机x20.922（0.024）13.0（4.9）0.879（0.047）0.839（0.058）0.691（0.015）VM双0.919（0.025）12.9（4.9）0.877（0.048）0.833（0.059）0.689（0.015）VM xx20.925（0.023）12.8（4.9）0.881（0.047）0.843（0.057）0.693（0.014）2×1级联虚拟机0.930（0.021）12.8（4.8）0.883（0.051）0.840（0.060）0.697（0.014）106095. 讨论递归级联网络实现简单，易于训练。当训练更多级联时，我们不调整损失率，也不调整训练计划，这表明我们的架构具有鲁棒性。如果有更多的资源可用或使用分布式学习平台，我们希望通过更深的级联来进一步提高性能，并且训练或微调共享权重级联将是一种替代选择。轻量级的基础网络也值得探索。这项工作的一个可能的限制是在合成场的平滑度上。从理论上讲，递归级联网络保持图像拓扑结构，只要每个子域。然而，折叠区域在目前提出的方法中是常见的，并且在递归期间可能被放大，这尤其对于权重共享技术的使用带来了挑战。这个问题可以通过仔细研究正则

下载后可阅读完整内容，剩余1页未读，立即下载