3D子断层图像对齐和平均化的几何无监督匹配网络

58 浏览量更新于2023-10-25 收藏 2.33MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1Gum-Net：用于快速准确的3D子断层图像对齐和平均的卡内基梅隆大学计算生物学系，美国匹兹堡，宾夕法尼亚州15213。xiangruz@andrew.cmu.edumxu1@cs.cmu.edu摘要我们提出了一种几何无监督匹配网络（口香糖网），用于寻找两个图像之间的几何对应关系，并应用于3D亚断层图像对齐和平均。亚断层图像对齐是冷冻电子断层扫描（cryo-ET）中最重要的任务然而，由于诸如噪声和缺失楔形效应的严重成像限制，子断层图像对准和平均化是非常具有挑战性的。我们引入了一个端到端的可训练架构，其中有三个专门设计用于保留特征空间信息和传播特征匹配信息的新颖模块。训练以完全无监督的方式执行，以优化匹配度量。不需要地面实况转换信息，也不需要类别级或实例级匹配监督信息。在对6个真实数据集和9个模拟数据集进行系统评估后，我们证明Gum-Net将对准误差降低了40%至50%，并将平均分辨率提高了10%。与最先进的子断层图对齐方法相比，Gum-Net在实践中使用GPU加速也实现了70到110倍的加速。我们的工作是第一个三维非监督几何匹配方法的图像的强变换变化和高噪声水平。训练代码、训练模型和数据集可在我们的开源软件AITom1中获得。1. 介绍几何匹配的目的是在给定变换模型的情况下，在二维和三维中，几何匹配是*通讯作者1https://github.com/xulabs/aitom广泛应用于模式识别[48，74]、3D图像重建[35，29]、医学图像对齐和配准[19，27]以及计算化学[86]等领域寻找与几何变换模型（如仿射变换或刚性变换）一致的全局最优参数参数空间需要彻底搜索，但计算成本是不可行的[36]。已经提出了许多流行的方法，通过检测和匹配手工制作的局部特征[50，15，73]来估计全局几何变换鲁棒[23，67，47，51]。最近，端到端可训练图像对齐引起了人们的关注。与传统的不可训练方法相比，有两个主要优点：（1）经过适当训练的卷积神经网络（CNN）模型可以在明显更短的时间内处理大量数据，以及（2）随着收集的数据量的增加，深度学习模型的性能可以通过更好的特征逐步提高。学习[60]。在本文中，我们专注于一个重要的几何匹配的应用领域，低温电子断层扫描（cryo-ET）。近年来，冷冻ET作为一种革命性的原位3D结构生物学成像技术出现，用于研究单细胞中的大分子复合物，即控制细胞生物学过程的纳米机器Cryo-ET捕获所有大分子复合物的3D天然结构和空间分布以及其他亚细胞组分，而不会破坏细胞[11]。然而，由于复杂的细胞质环境和缺失的楔形效应，低温ET数据受到低信噪比（SNR）的严重影响（补充部分S3中的输入数据和数学定义示例）2。因此，需要检测和恢复3D断层图像中的大分子结构以用于进一步的生物医学解释。来自断层图像的子断层图像是小立方体子-2由于有限的倾斜角度范围而导致的图像的部分采样（在补充部分S1中描述）40734074图1.Gum-Net模型管道。该模型是无监督和前馈的。该模型输入两个子断层图像sa和sb（在等表面表示中示出了底层结构），并且除了变换模型参数φtr和φrot之外，还输出变换后的子断层图像sb以几何匹配sa。虚线表示参数在两个特征提取器之间共享。通常含有一种大分子复合物的体积。亚断层图像对齐是最关键的冷冻ET数据处理技术，原因有两个：首先，通过基于排列的子图平均，可以恢复高分辨率的大分子结构。第二，可以通过对准来检测某一结构的空间分布。为了恢复结构，包含相同大分子结构但处于不同姿态的子断层图像必须迭代地对准和平均。断层扫描子图平均通过减少噪声和缺失楔形伪影提高分辨率[83]。从两个方面来看，子断层图像对准是比诸如3D可变形医学图像配准等相关任务更具挑战性的几何匹配任务：首先，由于子断层图像内部的结构具有完全随机的取向和位移，因此存在强的变换变化。第二，医学图像是相对干净的组织图像，而子断层图像是具有低SNR（大约1000）的0.01至0.1），这是由于复杂的细胞质环境和用于成像的低电子剂量 [16]（补充部分 S3 中的输入数据示例）。给定3D刚性变换模型，子断层图像对准计算六个参数（三个旋转和三个平移）。我们和其他人已经提出了方法[87，13]来近似约束相关性目标函数[25]，以将计算时间限制在可行范围内。然而，现在可以在几天内收集一组包含数百万个子断层图像的断层图像[5]。现有的最先进的子断层图像对准方法[87，13]通常在几秒的尺度上对准一对子断层图像，这对于处理如此大量的数据来说太慢了。此外，它们的精度是有限的，因为它们是近似方法。我们提出了Gum-Net（几何无监督匹配网络），这是一种通过无监督刚性几何匹配进行3D子断层图像对齐和平均的深层架构。集成三个新模块，Gum-Net输入通过提取和匹配卷积特征来估计两个子断层图像的变换Gum-Net在效率（70至110倍加速）和准确度（对齐误差减少40至50%）方面比两种最先进的断层图像对齐方法有了显著提高[87，13]。在三项消融研究中证明了所提出的模块的改进。主要贡献。我们的工作是第一个3D无监督几何匹配方法的图像的强烈transformation变化和高噪声水平。我们集成了三个新模块（图1）：（1）我们观察到，由于标准深度特征提取过程中的最大池化和平均池化操作寻求实现局部变换不变性，因此它不适合于精确的几何匹配，因为在特征提取期间需要在很大程度上保留特征空间位置。因此，我们引入了一个特征提取模块，该模块具有包括池化和过滤的光谱(2)我们提出了一种新的连体匹配模块，通过并行处理两个特征相关图来提高空间相关信息的传播（3）我们将修改后的空间Transformer网络[37]与可微缺失楔形插补策略合并到对齐模块中。我们通过输入随机的子图对来实现完全无监督的训练，而因此，与其他弱监督几何匹配方法[71，70，42，80，58]相比2. 相关工作2.1. 基于CNN2D图像对齐通常包括两个步骤：（1）获取图像特征描述符;（2）根据几何模型匹配特征描述符。近日有4075方法采用了预先训练的[81]或可训练的[41，63]基于CNN的特征提取器。具体来说，[22]提出了一种分层度量学习策略，以学习更好的几何匹配特征描述符。然而，所有的网络都与传统的匹配方法相结合。2017年，Rocco et al.提出了第一个用于2D图像几何匹配的端到端卷积神经网络[69]。这种完全监督的模型利用预先训练的网络[77]来从要匹配的两个图像中提取特征。然后，相关层匹配由网络跟踪的特征，以回归到用于监督训练的已知变换参数。后来，他们将这个模型扩展为弱监督模型，以找到类别级别的[70]和实例级对应[71]。其他弱监督方法已被提出用于类似的任务，包括语义属性匹配[42]，同时对齐和分割[80]，以及大类内变化下的对齐然而，它们仍然需要额外的训练监督，例如在实例级别或类别级别上匹配图像对。2.2. 无监督光流估计光流估计使用密集或稀疏向量场来描述2D图像序列中像素的小位移早期的无监督方法使用门控限制玻尔兹曼机来学习图像变换[56，57]。最近基于CNN的方法应用了帧插值[49]，遮挡推理[38]和亮度恒定性方面的无监督损失[39]或双向普查[53]。虽然这些方法都是无监督的，但它们要求输入图像高度相似，只有很小的像素偏移。2.3. 无监督形变医学图像配准3D图像配准是对2D光流估计的3D模拟。可变形图像配准已广泛应用于3D医学图像，如脑MRI [85，59]、CT [33，76]和心脏图像[91，72]。最近的工作提出了基于空间变换函数[18，4，17]或生成对抗网络[52，40]的无监督CNN模型。与光流估计类似，这些方法要求固定体积和移动体积的输入对来自两个体积的信息通过将它们堆叠为CNN模型的一个输入然而，当存在强变换变化时，简单地堆叠输入图像对效果不佳，因为图像相似性比较在空间上被限制在局部邻域[55]。2.4. 基于非学习的子断层图像对齐早期的工作已经使用了穷尽网格搜索的旋转和平移与固定的间隔，如1体素和5像素以对齐子断层图像[8，24，3]。为了减少穷尽搜索6D参数空间的计算成本，[87]中提出的高通量对齐应用了快速旋转匹配算法[43]。[13]中提出的快速准确对准也使用了快速旋转匹配算法，并将包括幅度和相位在内的更多信息纳入其程序。另一种方法是基于核规范[46]将多个子断层图协同对齐。在本文中，我们专注于成对子断层图像对齐，并将我们的方法与两种最流行的子断层图像对齐方法作为基线进行比较[87，13]。3. 方法我们的模型如图1所示（详细架构见补充部分S2）。使用具有共享权重的特征提取器处理两个子断层图（3D灰度立方体图像）sa和sb，以产生两个特征图va和vb。然后，一个Siamese匹配模块计算两个相关图cab和cba。在特定位置（i，j，k）处，cab包含该位置（i，j，k）处的va与vb的所有特征之间的相似性，而cba被类似地定义。cab和cba使用相同的网络体系结构进行处理，并在稍后连接以估计变换参数。ZYZ变换中的三维变换参数φtr={qx，qy，qz}和三维旋转参数φrot={qα，qβ，qγ}被输入到一个可微的空间Transformer中网络计算输出，转换后的子断层图像sb=Tφ （sb ）=TφtrTφrot （ sb ），缺失的楔形区域被输入（第 3.3节）。将光谱数据插补技术集成到空间Transformer网络中，补偿缺失的楔形效应。在训练过程中，我们没有像[69]中那样回归的地面真值转换参数。因此，为了评估几何匹配性能，我们的目标是找到3D刚性变换参数，以最大化在无监督的fashion中的sa和sab之间的互相关。基于互相关的损失被反向传播以更新模型权重。3.1. 特征提取模块特征提取是一个降维过程，用于有效地学习原始图像的感兴趣部分的紧凑特征向量表示。有各种流行的特征提取技术，如DenseNet [34]，InceptionNet [79]和ResNet [32]。在这些卷积神经网络中使用子采样方法，如最大池化和平均池化，以降低特征映射的维数并便于计算。与最大池化和平均池化相比，卷积神经网络的谱表示为每个参数保留了更多的空间信息，并实现了4076vv茨布夫C茨布夫[68]第68话基于离散傅立叶变换（DFT）[68]、离散余弦变换（DCT）[78]和Hartley变换[92]，提出了在频域中执行降维的2D频谱然而，这些方法是为2D图像设计的，并且不考虑图像噪声。我们提出了一个3D DCT为基础的频谱层与池- ING和过滤操作。由于我们的输入是3D噪声图像，因此新颖的滤波操作用于特征图高频噪声降低，并且池化操作用于特征图维数降低。我们选择DCT，因为它只存储实值系数，并且与DFT相比，在频谱的较小部分对于输入特征映射v∈RL×W×H，其3D类型II DCT定义为[2]：通过将裁剪的频谱变换回空间域。与最大池化操作相比，频谱池化操作已被证明可以在l2范数方面实现每个参数更好的空间信息保留[68]。图2显示了在不同的子采样因子下，从最大池化、平均池化和DCT频谱池化重建的图像。与其他池化操作相比，将光谱池化滤波层用于几何匹配任务的主要优点在于，两个图像中的特征的空间位置被显著更好地保留以用于精确匹配。例如，在最大池化期间，选择来自感受野的最大值以实现局部旋转和平移不变性，直觉上特征的确切位置对最终分类无关紧要。相比之下，在用于几何匹配的特征提取步骤中，准确的特征空间位置是关键的，并且信息丢失将导致C（v）LHW=8LWH 阿吉勒·阿吉鲁L−1H−1W−1维克cos∫，lπ（2 i+1）2L不准确的下游匹配。我们实现了3D DCT频谱池滤波器，作为特征提取器中的可微层的i=0j =0k =0cos∫，hπ（2 j+1）2小时. 1cos∫，wπ（2k+1），2W（一）低通滤波还通过屏蔽掉由噪声主导的高频区域来执行。3D DCT频谱池化滤波层的前向和反向传播过程在算法1和2中概述。其中，对于l = 0，l ∈ {0，.， L −1}。 ǫ1其他以及算法1：DCT谱池滤波类似地定义为{0，...， H −1}，w ∈ {0，...， W −1}。−1逆变换 3D II型DCT的定义很好，3D Type-III DCT [2]。因此，频域中的池化和滤波表示可以通过类型III DCT变换回空间域作为层的输出。输入：特征图v∈RL×W×H输出尺寸L1×W1×H1裁剪尺寸L2×W2×H2输出：特征图v∈RL1×W1×H11 C（v）2u←将u裁剪为大小L2×W2×H23u←零Padu尺寸L1×W1×H1−1最大池化4v←C（u）平均池化DCT频谱合并算法二：DCT谱池&滤波反向传播输入：梯度w.r.t层输出图层输出：梯度w.r.t层输入图层1y←C（C）裁剪频率二次抽样1：1因子二比二四点四分八点八三十二点三十二分一百二十八：一百二十八2 y←将y裁剪为尺寸L2×W2×H23y←零Pady尺寸L×W×H4L←C−1（y）图2.图像重建的最大池，平均池，和DCT频谱池计划在不同的子采样因子。DCT频谱池保留了原始图像中特征的更大空间信息，并提供了任意的输出地图维度。我们使用DCT来执行子采样，其中输入被变换到频域并在那里被裁剪。计算降维后的输出H4077光谱池滤波层的任意输出大小为几何匹配任务提供了另一个主要优势如果输出的两个特征图大小为L×W ×H，通道数为C，则Siamese相关层（第3.2节）将创建两个相关图，每个相关图大小为L×W×H，通道数为（LWH）。从特征提取模块到暹罗匹配模块的输出特征图大小需要仔细操作，特别是对于3D图像。4078zzX=yθz我i我的我我我如果输出的特征图太小，例如3×3×3，则匹配的信息损失太多。如果输出的特征图太大，例如20×20×20，则生成的相关图的大小将为20×20×20×8000，这太大而无法处理。与最大池化或平均池化层不同，最大池化或平均池化层积极地将每个维度减少到一半的大小并去除87.5%的信息，光谱池化过滤层可以逐渐将特征图大小减少到所需的特征提取模块输出大小。因此，不需要额外的空间裁剪或填充层来控制特征图大小。3.2. 连体匹配模块从图像中提取的特征的匹配通常作为独立的后处理步骤执行[31，90，75，54，64]。中提出的2D相关层3.3. 无监督几何对齐模块现有的子断层图像对齐方法优化了匹配度量[87，13，6，3]。在实践中，准备子断层图像对准基础事实用于训练是非常耗时的（需要穷尽地搜索6D参数空间）。因此，对于此任务，深度模型应该是无监督的。为了实现这一目标，我们提出了一个无监督的几何对齐模块，该模块利用空间Transformer网络[37]，并具有专门为断层图像数据设计的光谱数据输入。在具有固定体素间距（约1nm）的断层图像中，某种类型的大分子结构不会缩放或反射。因此，我们仅限于3D刚性变换。将由3D刚性变换参数生成的变换矩阵表示为Mθ[21]，当Tφ：R3→R3时，我们有：[69]实现了融合两幅图像的匹配信息。基本上是正常的-SI你好。我不是ΣytH×W ×CH×W×C塞吉 φ=Tφxt，yt，zt=Mθi化互相关函数G：R×R →s我的我我我t我的RH×W×（HW）。输入特征图之一va首先被平坦化为形状va∈RN×C，其中N=HW，以便保持输出相关图2D。对于每个特征，1 1θ11θ12θ13θ14（三）在VA和VB中，在所有通道上计算点积（作为特征描述符）以获得相关性，θ2131θ22θ32θ23θ3324θ34t其随后被归一化。然而，为了控制输出相关图的尺寸，一个输入的所有轴特征图被打破，后来被投射到0 0 0 1 1其中. xt，yt，zt是变换后的输出3D图像，（xs，ys，zs）是源坐标输出，而另一输入特征图被保留。我们提出了一种新的Siamese匹配模块，用于两两三维特征匹配。为了更好地利用和处理特征相关信息，设计了一个连体相关层.与[69]中仅计算cab的相关层不同，Siamese相关层是直观且对称设计的，它计算两个相关图cab和cba。它们中的每一个都保留了一个输入特征图的空间坐标使用两个相关图传播更多的特征空间分布信息用于变换参数估计。在特定位置lwhc的元素定义为：van：，vb我我我在输入的3D图像上。 θ是变换矩阵的元素。3×3正交旋转矩阵是从θ11到θ33。沿每个轴的位移由θ14、θ24和θ34指定。3D扭曲是可区分的，因此能够端到端地训练。为了补偿缺失的楔形效应，从而减少引入的偏差，我们将之前工作[88]中的光谱数据插补策略集成到空间Transformer网络中。对于子断层图像，我们使用其当前估计的变换来计算旋转的缺失楔形掩模m，作为指示函数来表示傅立叶系数在某些区域中是有效的还是缺失的，并将缺失的傅立叶系数与来自（cab）lwhc =i，j，klwh：.Σvan：，vbijk：（二）其变换目标子断层图像Sa。我们可以形成经变换和估算的子断层图像s_b，使得：（cba）=vbn：，valwh：。.[Fs]（）ifm（）=0lwhcΣi，j，k.vbn：，vaijk：（Fsb）（）=一、[FT（s）]（英）如果m（m）=1φB.（四）这两个相关图被馈送到伪连体图网络由卷积层组成，并且分别卷积，但随后连接成一个完全连接的层。m（m）=0如果在λ处的傅立叶系数缺失，、1如果λ处的傅立叶系数有效，在另一个完全连接层之后，Siamese匹配模块输出估计的刚性变换参数φtr和φrot。详细的模型架构可参见补充章XX、、4079节S2。其中F是傅里叶变换算子，R∈R3是傅里叶空间位置，m（R）是根据φrot旋转的缺失楔形掩模。由于傅里叶变换的幅度是平移不变的，我们只需要旋转 m（π），而不需要4080Σ使用φtr[25]。插补操作促进了无监督的几何匹配任务，因为只有当获得最佳对准时，插补数据才导致与变换的子断层图像的最高一致性。我们注意到，由于在可微分空间Transformer网络中与输入子断层图像的变换一起实现缺失楔形掩模m的旋转，并且离散傅立叶逆变换被良好地定义，所以该谱数据填补步骤可以以与算法2类似的方式微分损失函数皮尔逊相关性及其变体因其简单有效而广泛用于评估两个子断层图像之间的对齐[25，6，87，13，3]。我们将其实现为Gum-Net的损失函数：来自24张断层图像的复合体[25]。每个子断层图像被重新缩放为323的大小，体素大小为0.933 nm，25μ m缺失楔形。大鼠神经元培养数据集：该最近的数据集是来自大鼠神经元培养的一组断层扫描图[28]。通过模板匹配[8]和生物学专家注释，共提取了1095个核糖体亚断层图和1527个加帽蛋白酶体亚断层图每个子断层图像的尺寸为323，1.368 nm和30nm缺失楔形。S.酿酒酵母80S核糖体数据集：该数据集包含从纯化的S.酿酒酵母80S核糖体[7]。每个子断层图像被重新缩放为323的大小，体素大小为1.365 nm，30nm缺失楔形。TMV数据集：该数据集包含2742个烟草马赛克ΣNi=1 （sai−s<$a）.Σsbi−<$sb病毒（TMV）亚断层图，一种螺旋病毒[45]。3L=1−N（s√。-s<$）2Ns−¯ˆs、（五）2每个子断层图像的尺寸为32◦具有体素大小i=1阿一阿i=1bib1.080 nm和30缺少楔子。其中N是输入子图中的体素的总数。与现有的方法[87，13]相比，这些方法利用修正不变上限来近似Pearson3.4. 基线方法我们实现了两种最流行的最先进的子图对齐方法用于比较：H-T对齐[87]和FA对齐[13]。我们使用现有模块进行了三项消融研究：Gum-Net最大池化（Gum-NetMP）、Gum-Net平均池化（Gum-Net AP）和Gum-Net单一相关性（Gum-Net SC）。详细的实施方式可参见补充章节S2。4. 实验Gum-Net在不同信噪比下的6个真实数据集和9个真实模拟数据集上进行了评估。在模拟数据集上，通过将估计的变换参数φtr和φrot与地面实况进行比较来评估子断层图像对准的准确性在实际数据集上，由于变换的真值不可用，在实际应用中，通常通过参数空间穷举网格搜索来优化sa和sb 之间的互相关，从而得到最优变换. 因此，我们比较了由Gum-Net和基线方法计算的sa和sb之间的互相关，不同数据集中子断层图像的可视化可参见补充章节S3。4.1. 数据集4.1.1真实数据集GroEL/GroES数据集：该数据集包含786个纯化GroEL和GroEL/GroES醛缩酶数据集：该最新数据集包含400个纯化的兔肌肉醛缩酶亚断层图像[61]。每个子断层片被重新缩放到323的大小，体素大小为0.750 nm，30nm缺失楔形。胰岛素受体数据集：该最新数据集包含400个纯化的人胰岛素结合胰岛素受体子断层图[62]。每个子断层图像被重新缩放为323，体素尺寸为0 876 nm，45nm缺失楔形。4.1.2模拟数据集子断层图像数据集模拟使用了[26，65]中的标准程序，该程序考虑了缺失楔形块和对比度传递函数的断层重建过程（补充资料第S3节中的详细模拟程序）。我们选择了五种有代表性的大分子复合物：剪接体（PDBID：5LQW）、RNA聚合酶-利福平复合物（1 I6 V）、RNA聚合酶II延伸复合物（6A 5L）、核糖体（5 T2C）和加帽蛋白酶体（5 MPA）。所有五个结构都是不对称的，因此只存在一个对齐基础事实。我们模拟了五个数据集，一个相对干净（SNR 100）和四个SNR接近实验条件（0.1，0.05，0.03和0.01），每个由2100subtomography 对每个结构（共 10500 subtomography对）。来自每个数据集的5000个子断层图像对用于训练，500对用于验证。来自每个数据集的其余5000个子断层图像对用于测试。对于一对子断层图像，一个结构是另一个结构的随机变换每个子断层图像的尺寸为323，体素尺寸为1.2 nm。sb在每一对中具有典型的缺失楔形30μ m，而Sa没有缺失楔形。对于亚断层图像平均，我们以相同的方式模拟了500个核糖体（PDB ID：5T2C）的四个数据集，Σ4081方法信噪比100信噪比0.1信噪比0.05信噪比0.03信噪比0.01H-T对齐0.30±0.68，1.82±2.691.22±1.07，4.76±4.561.93±0.98，7.26±4.772.22±0.77，8.86±4.722.38±0.57，11.33±5.02F A align0.33±0.70，1.93±2.861.34±1.13，5.39±4.901.95±0.98，7.54±4.942.22±0.77，8.99±4.812.38±0.57，11.32±4.92Gum-Net MP0.90±0.87，3.34±3.411.30±0.79，4.93±3.361.44±0.79，5.46±3.381.53±0.78，5.96±3.341.67±0.77，7.28±3.38Gum-Net AP0.60±0.71，2.32±2.711.09±0.73，4.20±2.961.30±0.77，5.00±3.151.45±0.77，5.70±3.251.65±0.78，7.18±3.35Gum-Net SC0.70±0.75，2.63±2.861.16±0.77，4.41±3.231.36±0.79，5.13±3.341.48±0.78，5.75±3.341.67±0.77，7.24±3.46口香糖网0.41±0.70，1.59±2.630.62±0.69，2.41±2.610.87±0.74，3.20±2.781.13±0.75，4.29±2.751.50±0.78，6.78±4.22表1.指定SNR的五个数据集上的子断层图像对齐精度在每个单元中，第一项是旋转误差的平均值和标准差，第二项是平移误差。我们强调了Gum-Net的结果明显更好（p <0. 05）。001）。更详细的结果和分析见补充部分S3。SNR 0.1、0.05、0.03和0.01。4.2. 执行深度模型在Keras [14]中实现，后台由Tensorflow [1]自定义层。所有输入的大小为323.我们注意到，由于DCT频谱池滤波层的输入和输出大小的灵活性，输入大小可以是任意的。更高的分辨率可以用更大的输入子断层图像尺寸来实现。Gum-Net和基线的详细实施情况见补充部分S2。对于每个时期，我们从训练数据集中随机抽取5000个子断层图像对sa和sb ，而不管它们的结构类信息。因此，Gum-Net是完全无监督的，没有实例级或类别级匹配信息，用于弱监督，如其他几何匹配方法[71，70，42，80，58]。对于模拟数据集，有5000个可能的图像对。因此，我们没有观察到任何过拟合问题。4.3. 断层扫描图像对齐给定变换基础事实，我们用两个度量来测量对齐精度：（1）平移误差，定义为平移估计与地面实况之间的欧几里得距离;以及（2）旋转误差，定义为估计的平坦化旋转矩阵与地面实况之间的欧几里得距离。在模拟数据集上：表3.4显示了对准精度。Gum-Net在干净数据集上实现了类似的性能（SNR 100）。随着最大池化实现更多的低-cal变换不变性[93]，Gum-NetMP在所有设置中的表现都不如Gum-Net AP。当信噪比接近实验条件时（真实数据集的信噪比在0.01到0.1之间），基于CNN的方法通常比传统方法表现得更好具体地说，Gum-Net优于所有基线方法，证明了所提出的模块的改进。在我们的实验中，训练，验证和测试数据集是独立的，这确保了没有过拟合。然而，由于Gum-Net是完全无监督的，即使测试数据集来自不同的域源，例如在不同的成像条件下收集，也可以进行微调测试数据集上的训练模型（没有地面实况）用于适应。在速度方面，通过训练模型，Gum- Net仅需17. 6秒即可在单个GPU核心上对齐1000个子断层图。培训时间不到10小时。由于没有可用的GPU加速版本的传统算法，H-T对齐和F A对齐分别需要1916.4秒和1251.2秒来在CPU内核上对齐1000个子断层图因此，在实践中，这导致比传统方法快70到110倍。图3. SNR 100时的校准输入和输出示例。2D切片表示在补充部分S3中示出。在真实数据集上：我们将GroEL/GroES数据集分为617个子断层图像的训练数据集、69个子断层图像的验证数据集和100个子断层图像的测试数据集。在测试数据集中有4950对子断层图像我们通过Gum-Net，H-T对齐和F A对齐对它们进行Gum-Net的交叉相关性为0.0908±0.0204 ，显著优于（ p<0.001 ） H-T align （ 0.0756±0.0194）和FA align（0.0838± 0.0204）。我们将大鼠神经元培养数据集分为 2270 个subtomographs的训练数据集，252个subtomographs的验证数据集，以及100个核糖体和100个加帽蛋白酶体subtomographs的测试数据集。在测试数据集中有19900对子断层图像。 Gum-Net 的交叉相关性为 0.0615±0.0187 ，显著优于（ p<0.001 ） H-T align （ 0.0541±0.0235）和FA align（0.0607± 0.0199）。通过定义成对距离为1 -成对相关性，我们使用成对相关性应用完整的-在k=2的条件下，Gum-Net的聚类准确率达到92%，优于F-A align4082图4.使用Gum-Net进行基于投影的子断层图像平均的图示左侧是SNR下的五个示例输入子断层图0.1在实验中右侧是不同迭代的子断层图像平均值和真实结构。2D切片表示在补充部分S3中示出。(65 H-T对齐（53.5%）。4.4. 非参数无参考子断层图像平均断层图像中存在多个噪声副本（通常为数千个）的结构为了消除潜在的偏差，通常在没有任何外部结构参考的情况下进行子断层图像平均。无参考子断层图像平均化的一种主要方法是基于非参数化的平均化，其中所有子断层图像迭代地与其平均值对齐并重新平均以用于下一次迭代[9]。图4示出了这样的过程，其中通过简单地平均所有子断层图而不进行任何变换来生成初始平均值。通过迭代过程，子断层图像平均的结构分辨率逐渐提高方法0.10.050.030.0180年代TMV醛缩酶胰岛素H-T对齐2.893.794.924.413.052.232.341.90F A align2.784.363.814.532.772.523.132.18口香糖网2.782.954.014.222.732.161.971.77表2.子断层图像平均结果为FSC分辨率（nm）。“0.1”表示SNR为0.1时的模拟数据集。“80 S”、“TMV”、“Al-dolase”和“Insulin”表示真实数据集。突出显示最佳分辨率使用所提出的方法和基线方法测试了基于迭代的非参数无参考子断层图像平均。评估子断层图像平均值的标准分辨率测量是傅立叶壳层相关性（FSC）[82]（补充章节S3中的数学定义），其测量子断层图像平均值和真实结构之间的最大差异结构因子值越小，结果越好。如表4.4所示，Gum-Net实现了整体最佳平均性能，并将分辨率提高了约10%。5. 结论Cryo-ET亚断层图像对齐和平均化革命性地发现了单细胞中的3D天然大分子这样的信息提供了对细胞的精确功能/功能障碍的重要见解，流程.然而，随着收集的冷冻ET数据量的快速增加，迫切需要大幅提高亚断层图像对齐方法的效率我们开发了第一种用于3D子断层图像对齐和平均的无监督深度学习使用这三个模块，Gum-Net实现了端到端无监督学习的快速准确对齐Gum-Net开辟了通过更好的模型设计和训练来持续改进子断层图像对齐和平均效率和准确性的可能性。这项工作作为一个重要的一步，在原位高通量检测和大分子结构的恢复，更好地了解细胞过程中的分子机制。Gum-Net可以通过多种方式集成到现有的冷冻ET分析软件中。例如，EMAN 2 [26]执行穷举3D旋转和平移搜索，然后进行局部细化以进行基于平移的平均。RELION [7]通过彻底扫描3D刚性变换空间进行积分，最大化具有高斯噪声假设的模型的可能性Gum-Net提高了子断层图像对齐的准确性和效率，特别是对于大量的冷冻ET数据。因此，将Gum-Net与现有软件集成可以提高其对齐步骤的速度或快速生成用于平均细化的初始结构模型Gum-Net也可以很容易地扩展到相关任务，包括断层扫描倾斜系列对准[30]和低温电子显微镜单粒子重建[94]。所提出的模块可以适用于强变换变化的图像的其他几何匹配任务，例如姿态变化下的面部对齐[20，95]，或高噪声水平的图像，例如合成孔径雷达成像[89，12]和声纳成像[10，66]。确认这项工作得到了美国的支持美国国家科学基金会（NSF）资助DBI-1949629，部分由美国国家卫生研究院（NIH）资助P41 GM 103712。XZ得到了卡内基梅隆大学机器学习与健康中心的奖学金支持。我们感谢郑洪宇博士。本杰明·奇德斯特和詹妮弗·威廉姆斯在我们部门校对报纸。4083引用[1] Martín Abadi ， Paul Barham ， Jianmin Chen ， ZhifengChen ， Andy Davis ， Jeffrey Dean ， Matthieu Devin ，Sanjay Ghe-mawat，Geoffrey Irving，Michael Isard，et al.Tensorflow ：一个大规模机器学习系统。在第 12 届{USENIX}操作系统设计和实现研讨会{OSDI}16），第265-283页[2] 奥·阿尔希巴米和赛义德·布萨克塔。快速算法三维离散余弦变换2001年IEEE国际声学、语音和信号处理会议。程序（Cat. No.01CH37221），第3卷，第1945-1948页。IEEE，2001年。[3] Fernando Amat ， Luis R Comolli ， Farshid Moussavi ，John Smit，Kenneth H Downing，and Mark Horowitz.自适应傅立叶系数阈值法断层图像子图对齐。Journal ofStructural Biology，171（3）：332[4] Guha Balakrishnan，Amy Zhao，Mert R Sabuncu，JohnGuttag，and Adrian V Dalca.一种用于可变形医学图像配准的无监督学习模型。在IEEE计算机视觉和模式识别会议论文集，第9252-9260页[5] Philip R Baldwin，Yong Zi Tan，Edward T Eng，WilliamJ Rice ， Alex J Noble ， Carl J Negro ， Michael ACianfrocco ， Clinton S Potter ， and Bridget Carragher.cryoem中的大数据：em数据的自动收集，处理和访问Current Opinion in Microbiology，43：1[6] Alberto Bartesaghi，P Sprechmann，J Liu，G Randall，GSapiro，and Sriram Subramaniam.生物电子断层成像中的分类和缺失楔形校正的三维 Journal of StructuralBiology，162（3）：436-450，2008.[7] Tanmay AM Bharat and Sjors HW Scheres.使用子断层图像平均法从电子冷冻断层扫描数据中解析 Natureprotocols，11（11）：2054，2016.[8] Jochen Böhm，Reichleas S Frangakis ，Reiner Hegerl，Stephan Nickell，Dieter Typke，and Wolfgang Baumeister.在细胞环境中检测和识别大分子：应用于电子断层图像的模板匹配。 Proceedings of the National Academy ofSciences，97（26）：14245[9] 约翰·布里格斯原位结构生物学-断层图像平均化的潜力。Current opinion in structural biology，23（2）：261[10] Cyril Chailloux，Jean-Marc Le Caillec，Didier Gueriot，and Benoit Zerr.基于灰度的声纳图像镶嵌块匹配算法IEEE海洋工程杂志，36（4）：627[11] Juan Chang，Xiangan Liu，Ryan H Rochat，Matthew LBaker，and Wah Chiu.用冷冻电子显微镜和断层扫描重建从纳米到近原子分辨率的病毒结构病毒分子机器，第49Springer，2012.[12] Min Chen，Ayman Habib，Haiqing He，Qing Zhu，andWei Zhang.基于高斯-伽玛双窗描述子和几何约束的sar与光学图像鲁棒特征匹配方法。遥感，9（9）：882，2017.[13] Yuxiang Chen ， Stefan Pfeffer ， Thomas Hrabe ， JanMichael Schuller，and Friedrich Förster.子断层图像的快速和精确的无参考对齐。Journal of structural biology，182（3）：235[14] François Chollet等人Keras（2015），2017.[15] Navnee

下载后可阅读完整内容，剩余1页未读，立即下载