没有合适的资源?快使用搜索试试~ 我知道了~
������������������������������������208350粗到精视觉变换器的仿射医学图像配准0Tony C. W. Mok, Albert C. S. Chung香港科技大学计算机科学与工程系0cwmokab@connect.ust.hk, achung@cse.ust.hk0摘要0在综合医学图像配准流程中,仿射配准是不可或缺的。然而,只有少数研究关注快速而稳健的仿射配准算法。这些研究中的大多数利用卷积神经网络(CNN)学习联合仿射和非参数化配准,而仿射子网络的独立性能研究较少。此外,现有的基于CNN的仿射配准方法要么关注局部错位,要么关注输入的全局方向和位置来预测仿射变换矩阵,这对于空间初始化非常敏感,并且除了训练数据集外具有有限的泛化能力。本文提出了一种快速而强大的基于学习的算法,即粗到精视觉变换器(C2FViT),用于3D仿射医学图像配准。我们的方法自然地利用了卷积视觉变换器的全局连通性和局部性,以及多分辨率策略来学习全局仿射配准。我们在3D脑部图谱配准和模板匹配归一化上评估了我们的方法。综合结果表明,我们的方法在配准精度、鲁棒性和泛化能力方面优于现有的基于CNN的仿射配准方法,同时保持了基于学习的方法的运行时间优势。源代码可在https://github.com/cwmok/C2FViT上获得。01. 引言0刚性和仿射配准在各种医学成像研究中至关重要,并且是活跃研究领域。在综合图像配准框架中,目标图像对通常在使用可变形(非刚性)配准之前,基于刚性或仿射变换进行预对齐,消除了目标图像对之间可能存在的线性和大空间错位。固体结构如骨骼可以通过刚性和仿射配准很好地对齐[29,37]。在传统的图像配准方法中,不准确的预对齐可能会影响配准精度或阻碍优化算法的收敛,导致次优解[47]。最近基于学习的可变形图像配准方法的成功主要得益于使用传统图像配准方法进行准确的仿射初始化[3, 9, 11, 17, 19, 20,34-36]。虽然传统方法在配准性能方面表现出色,但配准时间取决于输入图像之间的错位程度,并且在高分辨率3D图像体积上可能耗时很长。为了实现实时自动图像配准,已经提出了一些使用卷积神经网络(CNN)学习联合仿射和非参数化配准的方法[21, 22, 40,46]。然而,仿射子网络的独立性能尚未得到充分探索。本文提出了一种快速而强大的基于学习的算法,即粗到精视觉变换器(C2FViT),用于3D仿射医学图像配准。我们的方法自然地利用了卷积视觉变换器的全局连通性和局部性,以及多分辨率策略来学习全局仿射配准。我们在3D脑部图谱配准和模板匹配归一化上评估了我们的方法。综合结果表明,我们的方法在配准精度、鲁棒性和泛化能力方面优于现有的基于CNN的仿射配准方法,同时保持了基于学习的方法的运行时间优势。源代码可在https://github.com/cwmok/C2FViT上获得。0卷积块嵌入0变换器编码器0MLP0MLP头部MLP0全局平均池化0× ��0卷积前馈0多头注意力0�� ��0��0(b)孪生网络(a)连接(c)C2FViT0卷积层0变换器编码器0图1. 仿射配准的不同架构比较。基于连接的方法(VTN-Affine[46])和孪生网络方法(ConvNet-Affine[11])都基于卷积神经网络,而我们提出的C2FViT基于视觉变换器。为了简洁起见,我们只展示了1级C2FViT。局部和全局操作分别用绿色和紫色表示。0图像对的不准确预对齐可能会影响配准精度或阻碍优化算法的收敛,导致次优解[47]。最近基于学习的可变形图像配准方法的成功主要得益于使用传统图像配准方法进行准确的仿射初始化[3, 9, 11, 17, 19, 20,34-36]。虽然传统方法在配准性能方面表现出色,但配准时间取决于输入图像之间的错位程度,并且在高分辨率3D图像体积上可能耗时很长。为了实现实时自动图像配准,已经提出了一些使用卷积神经网络(CNN)学习联合仿射和非参数化配准的方法[21, 22, 40,46]。然而,仿射子网络的独立性能尚未得到充分探索。208360与传统仿射注册算法相比,对于基于CNN的仿射子网络的研究较少。此外,考虑到仿射变换是全局性的,并且通常针对可能的大位移,我们认为CNN不是在笛卡尔空间中编码图像扫描的方向和绝对位置或仿射参数的理想架构,因为CNN的结构中嵌入了归纳偏差。在本文中,我们分析和揭示了基于CNN的仿射注册方法在具有大初始错配和训练数据集之外的未见图像对的情况下的普遍无能和有限泛化能力。受到视觉变换器模型[10, 12, 41, 43,44]的最近成功的启发,我们摒弃了现有的基于CNN的方法,提出了一种专门用于3D医学仿射注册的粗到精的视觉变换器(C2FViT)。据我们所知,这是第一个在学习全局3D医学图像注册的过程中考虑输入图像之间的非局部依赖关系的基于学习的仿射注册方法。本文的主要贡献如下:0•我们在3D脑注册中定量研究和分析了现有基于学习的仿射注册方法和传统仿射注册方法的注册性能、鲁棒性和泛化能力;0•我们提出了一种新颖的基于学习的仿射注册算法,即C2FViT,它利用多分辨率策略与卷积视觉变换器。C2FViT在展示出卓越的鲁棒性和数据集通用性的同时,优于最近的基于CNN的仿射注册方法;0•所提出的学习范式和目标函数可以轻松适应各种参数化注册方法。0我们在两个任务上评估了我们的方法:模板匹配归一化到MNI152空间[13-15]和原生空间中的3D脑图谱注册。结果表明,我们的方法不仅在注册性能上优于现有的基于CNN的方法,而且训练模型在训练数据集之外的未见数据集上也具有良好的泛化能力,达到了传统仿射注册方法的注册性能。02. 相关工作02.1. 基于学习的仿射注册方法0传统方法通常将仿射注册问题转化为迭代优化问题,通过自适应梯度下降[1, 25]或凸优化[18]直接优化仿射参数。0传统方法在注册准确性方面表现出色,但注册时间取决于输入图像对的复杂性和分辨率。最近,许多基于学习的方法已被提出用于快速仿射注册。这些方法通过使用CNN将仿射注册问题制定为学习问题,并绕过传统方法中昂贵的迭代优化,显著加速了注册时间。现有的基于CNN的仿射注册方法可以分为两类:基于串联的方法[21, 22, 33,46]和孪生网络方法[5, 11,38],如图1所示。赵等人[46]提出了一种基于串联的仿射子网络,将固定图像和移动图像连接为输入,并利用单流CNN提取基于输入的局部错配的特征。考虑到仿射注册是全局性的,他们的方法对于具有较大初始错配的输入不具备能力,因为仿射子网络缺乏全局连接,只关注两个图像空间之间的重叠区域。与基于串联的方法相比,deVos等人[11]提出了一种使用孪生CNN架构进行固定图像和移动图像的无监督仿射注册方法。在每个流水线的末尾应用全局平均池化[27],以提取每个特征图的一个特征,迫使网络在全局范围内编码方向和仿射变换。尽管他们的网络专注于分离输入的全局高级几何特征,但他们的方法完全忽略了输入图像对之间的初始错配的局部特征。此外,最近的一项研究[28]表明,纯CNN编码器在一个看似微不足道的坐标转换问题上表现出惊人的失败,这意味着纯CNN编码器可能不是编码图像扫描在笛卡尔空间中的方向和绝对位置或仿射参数的理想架构。沈等人[40]还报告说,基于CNN的仿射注册方法在实践中表现不佳,即使对于具有大感受野的深度CNN也是如此。值得注意的是,大多数现有的基于CNN的仿射注册方法[5, 11, 21, 22, 38,46]共同评估仿射和可变形注册的性能,或者完全忽略与传统仿射注册算法相比仿射子网络的独立性能。由于图像对的不准确的仿射预对齐可能会损害注册准确性或阻碍可变形注册算法的收敛[40,47],对基于CNN的仿射注册方法进行全面评估绝不能忽视。02.2. 视觉变换器0CNN的架构通常在建模明确的长程依赖性方面存在局限性,这是由固有的归纳偏差(即权重共享和局部性)嵌入的。in figure 1. We use L = 3 and Ni = 4 for each stage ithroughout this paper. Specifically, we first create the in-put pyramid by downsampling the input F and M with tri-linear interpolation to obtain Fi ∈ {F1, F2, . . . , FL} (andMi ∈ {M1, M2, . . . , ML}), where Fi represents the down-sampled F with a scale factor of 0.5L−i and FL = F.We then concatenate Fi and Mi, and the concatenated in-put is subjected to the convolutional patch embedding layer.Different from the prior Transformer-based architectures[10,12,43,44], we prune all the layer normalization opera-tions as we did not observe noticeable effects on the imageregistration performance in our experiments. Next, a stackof Ni transformer encoder blocks take as input the imagepatch embedding map and output the feature embedding ofthe input. C2FViT solves the affine registration problem ina coarse-to-fine manner, and the intermediate input movingimage Mi is transformed via progressive spatial transfor-mation. Additionally, for stage i > 1, a residual connectionfrom the output embeddings (tokens) of the previous stagei − 1 is added to the patch embeddings of the current stagei. Finally, the estimated affine matrix AL of the final stageis adopted as the output of our model fθ.208370最近,Dosovitskiy等人提出了一项开创性的工作,即视觉变换器(ViT),用于图像分类,并证明了纯变换器架构可以达到最先进的性能。与基于CNN的方法相比,ViT提供了较少的图像特定归纳偏差,并且在大规模数据集上训练时具有巨大的潜力。Wang等人开发了一个金字塔架构设计,用于纯变换器模型模仿CNN中的多尺度策略,在各种计算机视觉任务中取得了有希望的结果。随后的研究进一步将ViT扩展到金字塔架构设计,并将卷积引入ViT。这些研究表明,将适度的卷积归纳偏差引入ViT可以改善整体性能,特别是在小数据集上训练时。除了纯ViT方法外,Zhang等人和Chen等人将CNN编码器-解码器与变换器相结合用于可变形配准。虽然CNN在可变形医学图像配准方面取得了显著的成功,但我们认为CNN不是用于建模和学习仿射配准的理想架构。与可变形图像配准相反,仿射配准通常用于减轻和消除大的线性错配,这被认为是一种全局操作,与CNN的架构结构中嵌入的归纳偏差相矛盾。基于ViT及其变种的见解,我们摒弃了CNN的架构,并提出了一种专用于3D医学仿射配准的纯变换器方法。03. 方法0设F,M为定义在n维空间域Ω�Rn上的固定和移动体积。本文我们关注3D仿射医学图像配准,即n=3且Ω�R3。为简单起见,我们进一步假设F和M是单通道的灰度图像。我们的目标是学习将F和M对齐的最佳仿射矩阵。具体而言,我们使用粗到细视觉变换器(C2FViT)将仿射配准问题参数化为一个函数fθ(F, M) =A,其中θ是一组学习参数,A表示预测的仿射变换矩阵。03.1. 粗到细视觉变换器(C2FViT)02.我们的方法被分为L个阶段,以金字塔图像的方式从粗到细解决仿射配准问题。所有阶段共享相同的架构,包括一个卷积补丁嵌入层和Ni个变换器编码器块,其中Ni表示第i阶段的变换器块的数量。每个变换器编码器块由一个交替的多头自注意模块和一个卷积前馈层组成,如图所示。03.1.1 C2FViT的局部性0虽然ViT模型[12]在建模非重叠图像补丁序列中的长程依赖方面表现出色,这归功于自注意机制,但视觉Transformer模型缺乏模拟输入补丁与其邻居之间关系的局部性机制。因此,我们遵循[26, 42,44]在C2FViT中为我们的Transformer增加了局部性。具体而言,我们在两个方面主要改进Transformer:补丁嵌入和前馈层。如图2所示,我们摒弃了线性补丁嵌入方法[12],而采用了卷积补丁嵌入[42,44]。卷积补丁嵌入层的目标是将输入图像转换为一系列重叠的补丁嵌入。形式上,给定一个拼接的输入I∈RH×W×D×C,其中H、W和D表示I的空间维度,C是通道数,卷积补丁嵌入层利用3D卷积层计算I的补丁嵌入映射Z∈RH_i×W_i×D_i×d。具体而言,3D卷积层的核大小、步长、零填充数和特征图数分别表示为k3、s、p和d。接下来,补丁嵌入映射Z被展平为一系列补丁嵌入(令牌){ˆZ_i∈Rd | i = 1, ...,N},其中N =H_iW_iD_i,d是嵌入维度。补丁嵌入可以聚合成矩阵ˆZ∈RN×d。我们通过改变卷积层的步长s,将补丁数N限制为4096,将嵌入维度d限制为256,以在C2FViT的所有卷积补丁嵌入层中保持一致。Convolutional Patch EmbeddingTransformer Encoder HeadConvolutional Patch EmbeddingTransformer Encoder Convolutional Patch EmbeddingTransformer Encoder SS208380阶段1 阶段2 阶段30固定图像0移动0位置嵌入0逐元素相加0S空间变换0�� 10�� 20�� 30�� 20�� 10�� 30× �� 1 × �� 2 × �� 30�� 1 �� 2 �� 30图2. C2FViT的总体概述。整个模型分为三个阶段,以粗到细的方式解决仿射配准问题。016)。此外,我们通过将k设置为2s-1来强制窗口重叠到卷积操作的滑动窗口,并用零填充特征(p = �k02�)。与ViT中的线性补丁嵌入相比,C2FViT中的卷积补丁嵌入有助于模拟固定图像和移动图像之间的局部空间上下文和特征。它还提供了调整补丁嵌入数量和特征维度的灵活性。另一方面,ViT中的前馈层由具有两个隐藏层的MLP块组成。在Transformer编码器中,前馈层是唯一具有局部性和平移等变性的层。由于ViT中的前馈层以补丁方式应用于补丁嵌入映射,它缺乏模拟相邻补丁嵌入之间关系的局部机制。因此,我们在C2FViT的前馈层的MLP块的两个隐藏层之间添加了一个3×3×3的深度卷积层[26,42]。深度卷积进一步将局部性引入C2FViT的Transformer编码器。3.1.2 C2FViT的全局连通性0Transformer在建模嵌入序列中的长程依赖方面表现出色,这归功于它们的自注意机制。与现有的基于CNN的仿射配准方法相比,C2FViT的Transformer编码器中的投影查询-键对之间的相似性可以捕捉和建模固定图像和移动图像之间的错配和全局关系,从而产生每个补丁嵌入的注意力分数。具体而言,查询Q、键K和值V是补丁嵌入(令牌)的线性投影,即Q = ˆ ZW Q,K = ˆ ZW K和V = ˆ ZWV。我们进一步将自注意模块扩展为多头自注意(MHA)模块[41]。给定注意力头的数量为h,每个注意力头j的线性投影矩阵W Q j、W K j和W V j的大小相同,即W Q j、W Kj、W V j∈Rd×dh,其中dh=d/h。根据自注意力0对于注意力头j,我们的注意力操作计算如下:0Attention(Qj, Kj, Vj) = Softmax(QjKTj/√dh)Vj (1)0其中dh是注意力头的嵌入维度。最后,所有注意力头的注意嵌入被连接并通过矩阵WO∈Rd×d进行线性投影。在本研究中,我们使用h=2个注意力头和d=256的嵌入维度来实现所有的Transformer编码器。03.1.3 渐进空间变换0我们将多分辨率策略应用于我们的架构设计中。具体而言,在C2FViT的每个阶段末尾附加了一个分类头,该头由两个连续的多层感知器(MLP)层实现,激活函数为双曲正切(Tanh)。分类头以平均的基于补丁的补丁嵌入作为输入,并输出一组仿射变换参数。在中间阶段i中,导出的仿射矩阵用于逐步变换移动图像Mi+1,使用空间变换器[23]。变换后的移动图像Mi+1然后与固定图像Fi+1连接,并作为第i+1阶段的输入。通过提出的渐进空间变换,可以轻松消除输入图像的线性不对齐,并且来自更高级别的变换器可以专注于输入图像对之间的复杂不对齐,从而降低了更高阶段问题的复杂性。03.2. 解耦的仿射变换0虽然直接估计仿射矩阵是可行的[21, 38,46],但这种变换模型无法推广。θ∗ = arg minθ�E(F,M)∈D L F, M(ϕ(Af)�,(2)Lsim(F, M(ϕ)) =i) NCCw(Fi, Mi(ϕ)),(3)where L denotes the number of image pyramid levels,NCCw represents the local normalized cross-correlationwith windows size w3, and (Fi, Mi) denotes the images inthe image pyramid, i.e., F1 is the image with the lowest res-olution. In addition, our method is also capable of semi-supervised learning if the anatomical segmentation mapsof the fixed and moving images are available in the train-ing dataset. Given anatomical segmentation maps of fixedimage SF and warped moving image SM(ϕ), the semi-supervised C2FViT can be formulated by changing the sim-ilarity measure L in eq. 2 to Lsim + λLseg, where Lseg isdefined as follows:Lseg(SF , SM(ϕ)) = 1K�i∈[1..K]�1 − 2(SiFSiM(ϕ))�(4)208390与仿射矩阵不同,C2FViT的变换模型进一步利用C2FViT预测一组几何变换参数,而不是直接估计仿射矩阵。形式上,仿射配准问题被简化为fθ(F, M) = [t, r, s, h],其中t, r, s, h∈ R^3。0仿射矩阵可以通过一组几何变换矩阵的矩阵乘法得到,其中T、R、S和H分别表示由对应的几何变换参数(t、r、s和h)导出的平移、旋转、缩放和剪切变换矩阵。我们提出的变换模型可以通过修剪或修改不需要的几何变换矩阵轻松转移到其他参数化配准设置中。例如,通过删除缩放和剪切矩阵,我们的C2FViT可以应用于刚性配准。此外,我们的变换模型能够具有几何约束,从而减少模型在优化过程中的搜索空间。在本文中,输出的几何变换参数受到以下约束:旋转和剪切参数在-π和+π之间,平移参数在最大空间分辨率的-50%和+50%之间,缩放参数在0.5和1.5之间。在本文中,我们使用输入的重心而不是几何中心进行旋转和剪切。图像I的重心cI定义为cI =0p ∈ Ω I ( p)。如果图像扫描的背景强度非零,则旋转的原点可以设置为图像的几何中心。03.3. 无监督和半监督学习0与传统的仿射配准方法不同,我们将仿射配准问题参数化为学习问题。具体而言,我们将函数fθ(F, M) =Af表示为C2FViT模型和输出仿射变换矩阵Af,其中fθ和Af分别表示C2FViT模型和输出仿射变换矩阵Af。数学上,我们的目标是最小化以下方程:0其中θ是C2FViT中的学习参数,固定图像和移动图像是从训练数据集D中随机采样的,损失函数L衡量固定图像和仿射变换后的移动图像M(ϕ(Af))之间的不相似性。在我们的无监督学习设置中,我们使用负NCC相似度测量与相似性金字塔[35]Lsim来量化F和M(ϕ(Af))之间的距离,使得L =Lsim,Lsim定义如下:0图3.来自图谱(固定图像)、移动图像和ConvNet-Affine、VTN-Affie以及我们的方法(无质心初始化)的结果变形图像的冠状MR切片示例。0i ∈ [1 ..L ] − 10| SiF | + |SiM(ϕ) |0其中K表示解剖结构的数量。对于半监督C2FViT,我们在实验中利用了所有可用的解剖分割。在本文中,我们使用L =3的图像金字塔级别和λ = 0.5。04. 实验04.1. 数据和预处理0我们使用来自OASIS数据集[30]的414个T1加权脑MRI扫描对我们的方法进行了大脑模板匹配归一化和基于图谱的配准评估。208400来自LPBA数据集[39]的40个脑MRI扫描。对于OASIS数据集,我们将所有MRI扫描重新采样和填充为256×256×256,分辨率相同(1mm×1mm×1mm),然后进行标准预处理步骤,包括运动校正、去除颅骨和亚皮质结构分割,每个MRI扫描使用FreeSurfer[14]进行处理。对于LPBA数据集,MRI扫描已经去除颅骨,并提供了亚皮质结构的手动划分。我们实验中的所有脑MRI扫描都处于原生空间,除了MNI152脑模板。我们将OASIS数据集分为255个训练集、10个验证集和149个测试集。对于LPBA数据集,我们将所有40个扫描作为测试集。我们在脑配准的两个应用中评估了我们的方法:将脑模板匹配归一化到MNI152空间和在原生空间中基于图谱的配准。脑模板匹配归一化是分析个体间图像的标准应用,也是大多数可变形图像配准方法中必需的预处理步骤。对于脑模板匹配归一化任务,我们将OA-SIS数据集中的所有测试扫描仿射配准到MNI152(第6代)脑模板[13-15],该脑模板是由152个结构图像经过非线性配准后平均得到的共同MNI152坐标系。我们使用OASIS的训练数据集和MNI152模板训练基于学习的方法,其中将MNI152模板作为固定图像,将训练数据集中的MRI扫描作为移动图像。对于基于图谱的配准任务,我们从OASIS和LPBA数据集的测试集中随机选择3个和2个扫描作为图谱。然后,我们将测试集中的其余MRI扫描与所选的图谱在同一数据集中进行对齐。请注意,在基于图谱的配准任务中,我们使用成对的脑配准对学习方法进行训练,随机选择两个图像扫描作为固定图像和移动图像,仅使用OASIS数据集的训练集进行训练,即所选的图谱和来自LPBA数据集的MRI扫描未参与训练。传统上,仿射配准方法通常默认使用质心(CoM)初始化输入图像[32],该方法使用输入图像的质心初始化平移参数。同样,对于基于学习的方法,质心初始化可以通过将移动图像的质心平移到固定图像的质心来实现。我们评估了带有和不带有质心初始化的方法,并将结果列在表1和表2中。04.2. 测量0为了量化仿射配准算法的配准性能,我们将每个受试者注册到一个图谱或MNI152模板,通过传播亚皮质结构分割图来评估配准结果。0使用得到的仿射变换矩阵将每个受试者注册到一个模板或MNI152模板,通过测量体积重叠来评估分割结果,使用Dice相似系数(DSC)和所有案例中最低DSC的30%(DSC30)进行测量。我们还测量分割结果的Hausdorff距离的95%百分位数(HD95)来表示配准算法的可靠性。在大脑模板匹配归一化任务中,评估包括4个亚皮质结构,即尾状核、小脑、壳核和丘脑。在基于OASIS数据集的基于图谱的配准中,包括23个亚皮质结构,如图4的箱线图所示。对于基于LPBA数据集的基于图谱的配准,我们利用了大脑扫描的所有手动分割结果,包括脑脊液(CSF)、灰质(GM)和白质(WM),进行评估。04.3. 基准方法0我们将我们的方法与两种最先进的传统仿射配准方法(ANTs [ 1 ]和Elastix [ 25])以及两种基于学习的仿射配准方法(ConvNet-Affine [11 ]和VTN-Affine [ 46])进行比较。具体而言,我们使用公开可用的ANTs软件包[2 ]中的ANTs仿射配准实现,以及SimpleElastix工具箱[ 31]中的Elastix仿射配准算法。这两种方法都使用三级多分辨率优化策略,采用自适应梯度下降优化和互信息作为相似度度量。对于ConvNet-Affine和VTN-Affine,我们按照它们的论文实现它们的仿射子网络。两种方法的初始特征通道数均设置为16,并且我们按照它们的论文规定定义网络深度的增长和每个卷积层的隐藏维度。默认情况下,所有基于学习的方法都以无监督的方式进行训练,使用与我们的方法相同的半监督目标函数进行扩展,分别称为C2FViT-semi,ConvNet-Affine-semi和VTN-Affine-semi。04.4. 实现0基于学习的方法,即C2FViT,ConvNet-Affine和VTN-Affine,是使用Pytorch开发和训练的。所有方法都在配备有Nvidia TITAN RTX GPU和Intel Core i7-7700CPU的独立工作站上进行训练或执行。学习方法使用半分辨率图像扫描进行训练,通过三线性插值对图像扫描进行降采样。然后,我们将得到的仿射变换应用于全分辨率图像扫描进行评估。我们采用Adam优化器[ 24],学习率固定为1e-4,并且对于所有基于学习的方法,批量大小设置为1。444test232323test333test±±±±±±±±±±±± 0.2 sANTs [1]-0.740.060.670.054.650.5738.23.2 s0.670.080.580.083.271.5637.72.5 s0.540.030.500.024.531.3846.615.3 s208410方法 #参数 模板匹配归一化(MNI152) 基于图谱的配准(OASIS) 基于图谱的配准(OASIS训练 � LPBA测试)0初始值 - 0.14 ± 0.12 0.02 ± 0.02 29.26 ± 11.33 - 0.18 ± 0.14 0.06 ± 0.02 15.53 ± 6.77 - 0.33 ± 0.06 0.26 ± 0.03 12.43 ± 4.65 -0ConvNet-Affine [ 11 ] 14.7 M 0.65 ± 0.08 0.56 ± 0.06 6.14 ± 1.33 0.12 ± 0.09 s 0.57 ± 0.07 0.48 ± 0.05 4.10 ± 1.01 0.09 ± 0.06 s 0.36 ± 0.07 0.28 ± 0.03 11.58 ± 4.99 0.11 ± 0.08 s VTN-Affine [ 46 ] 14.0 M 0.67 ±0.06 0.60 ± 0.05 5.80 ± 1.01 2e-3 ± 4e-4 s 0.57 ± 0.08 0.48 ± 0.06 4.18 ± 1.08 3e-3 ± 8e-4 s 0.31 ± 0.06 0.24 ± 0.03 14.99 ± 5.34 2e-3 ± 6e-4 s C2FViT (我们的方法) 15.2 M 0.71 ± 0.06 0.64 ± 0.04 5.17 ± 0.81 0.09± 0.03 s 0.64 ± 0.06 0.57 ± 0.05 3.33 ± 0.77 0.08 ± 0.01 s 0.47 ± 0.04 0.42 ± 0.02 6.55 ± 1.60 0.14 ± 0.06 s0表1.模板匹配归一化和基于图谱的注册的定量结果,不使用质心初始化。每个指标的下标表示涉及的解剖结构数量。↑:数值越大越好,↓:数值越小越好。初始:原始空间中没有注册的初始结果。0方法 #参数 模板匹配归一化(MNI152)基于图谱的注册(OASIS)基于图谱的注册(OASIS训练�LPBA测试)0DSC 4 ↑ DSC30 4 ↑ HD95 4 ↓ T test ↓ DSC 23 ↑ DSC30 23 ↑ HD95 23 ↓ T test ↓ DSC 3 ↑ DSC30 3 ↑ HD95 3 ↓ T test ↓0初始(CoM)- 0.49 ± 0.11 0.35 ± 0.06 11.03 ± 3.48 - 0.45 ± 0.12 0.29 ± 0.06 6.97 ± 2.89 - 0.45 ± 0.04 0.41 ± 0.01 6.87 ± 1.69 -0ConvNet-Affine [ 11 ] 14.7 M 0.70 ± 0.06 0.63 ± 0.05 5.28 ± 0.68 0.12 ± 0.08 s 0.62 ± 0.06 0.55 ± 0.05 3.43 ± 0.91 0.10 ± 0.07 s 0.45 ± 0.04 0.41 ± 0.01 7.46 ± 1.87 0.11 ± 0.08 s VTN-Affine [ 46 ] 14.0 M 0.71 ±0.06 0.64 ± 0.05 5.11 ± 0.74 3e-3 ± 9e-4 s 0.66 ± 0.06 0.59 ± 0.06 3.02 ± 0.81 2e-3 ± 7e-4 s 0.43 ± 0.04 0.39 ± 0.02 8.02 ± 2.23 2e-3 ± 6e-4 s C2FViT (我们的方法) 15.2 M 0.72 ± 0.06 0.65 ± 0.05 4.99 ± 0.75 0.12± 0.04 s 0.66 ± 0.05 0.61 ± 0.04 2.96 ± 0.54 0.09 ± 0.02 s 0.54 ± 0.03 0.51 ± 0.04 4.06 ± 1.12 0.12 ± 0.04 s0ConvNet-Affine-semi [ 11 ] 14.7 M 0.73 ± 0.06 0.66 ± 0.04 4.94 ± 0.76 0.12 ± 0.09 s 0.63 ± 0.06 0.56 ± 0.06 3.46 ± 0.96 0.10 ± 0.07s 0.43 ± 0.03 0.40 ± 0.02 6.90 ± 1.52 0.12 ± 0.08 s VTN-Affine-semi [ 46 ] 14.0 M0.75 ± 0.05 0.70 ± 0.04 4.65 ± 0.66 2e-3 ± 6e-4 s 0.68 ± 0.05 0.62 ± 0.04 2.94 ± 0.64 2e-3 ± 8e-4 s 0.44 ± 0.04 0.40 ± 0.02 7.27 ± 1.96 2e-3 ± 1e-3 s C2FViT-semi (我们的方法) 15.2 M 0.76 ± 0.05 0.70 ± 0.04 4.60 ±0.69 0.13 ± 0.05 s 0.69 ± 0.04 0.64 ± 0.04 2.81 ± 0.55 0.08 ± 0.02 s 0.51 ± 0.03 0.47 ± 0.04 4.58 ± 1.71 0.13 ± 0.05 s0表2.使用质心初始化的模板匹配归一化、OASIS和LPBA数据集的定量结果。每个指标的下标表示涉及的解剖结构数量。↑:数值越大越好,↓:数值越小越好。初始(CoM):使用质心初始化的初始结果。据我们所知,ANTs和Elastix没有GPU实现。04.5. 结果04.5.1 注册准确性和鲁棒性0表1显示了学习方法在没有空间初始化的情况下进行模板匹配归一化和基于图谱的注册的结果。图3展示了所有任务在没有空间初始化的情况下的定性结果。低的初始Dice分数表明每个测试案例中存在较大的错配。我们的方法在DSC、DSC30和HD95方面明显优于ConvNet-Affine和VTN-Affine,表明我们的方法在具有较大初始错配的仿射配准中具有鲁棒性和准确性。我们在图4的箱线图中可视化了每个次皮质结构的Dice分数分布。与VTN-Affine相比,C2FViT模型在所有结构上都取得了更好的性能。表2显示了使用质心初始化的任务结果。这种简单但有效的初始化将初始Dice分数从0.14、0.18和0.33提高到0.49、0.45和0.45,表明初始化消除了大部分由于平移引起的错配。所有三种学习方法在具有质心初始化的仿射配准上都有显著改进。对于无监督的方式,我们的方法在Dice度量上与传统方法(ANTs和Elastix)相当,并且略优于ConvNet-Affine和VTN-Affine。值得注意的是,在质心初始化下,VTN-Affine在模板匹配和基于图谱的注册(OASIS)的配准性能上取得了显著改善。然而,初始配准的有效性应该0当两幅图像是在不同的成像模态下获取的时,应考虑没有空间初始化的情况下的配准性能,以评估基于学习的仿射配准算法。通过我们提出的半监督设置,我们的方法C2FViT-semi在OASIS数据集上的模板匹配归一化和基于图谱的配准任务中取得了最佳的整体配准性能。04.5.2 泛化性分析0如表1和表2所示,使用在OASIS数据集上训练的模型的ConvNet-Affine和VTN-Affine在LPBA数据集的测试集中表现惨不忍睹,与没有进行配准和空间初始化的初始结果相比,DSC分别降低了5%和2%,而ConvNet-Affine的DSC分别增加了3%和0%。这些结果表明,无论空间初始化如何,它们的模型在实践中不能很好地推广到未见过的数据集。相比之下,我们的C2FViT模型在LPBA数据集的任务中达到了与传统仿射配准方法ANTs和Elastix相当的配准性能,平均Dice分数为0.54,HD95为4.06,如表2所示。尽管半监督设置改善了基于学习的模型在OASIS数据集上的模板匹配归一化和基于图谱的配准的数据集特定性能,但半监督模型在LPBA数据集上不如无监督模型,这表明注入到模型中的解剖学知识在训练数据集之外的未见数据上可能无法很好地推广。Vanilla C2FViT-s10.613.530.05 ± 0.04 s5.0 MVanilla C2FViT-s20.623.570.060.05 s10.0 MDSC23 ↑DSC
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功