没有合适的资源?快使用搜索试试~ 我知道了~
4066CryoDRGN2:从真实冷冻EM图像进行3D蛋白质结构的从头艾伦·D 仲MITzhonge@mit.eduAdam LererFacebook AIalerer@fb.comJoseph H. 戴维斯麻省理工学院jhdavis@mit.eduBonnieBerger麻省理工学院bab@mit.edu摘要根据冷冻EM数据确定蛋白质结构需要根据许多噪声和随机取向的2D投影图像重建3D体积(或体积分布)。虽然标准的均质重构任务旨在恢复单个静态结构,但最近提出的神经和非神经方法可以重构结构的分布,从而能够研究具有内在结构或构象异质性的蛋白质复合物然而,这些异构重建方法需要固定的图像姿态,其通常是从上游同质重建估计的,并且不能保证在高度异构的条件下是准确的在这项工作中,我们描述了cryoDRGN 2,从头计算重建算法,它可以联合估计图像姿态和学习的神经模型的分布的三维结构的真实异构cryo-EM数据。为了实现这一目标,我们适应搜索算法从传统的cryo-EM文献,并描述了优化和设计选择,使这样的搜索过程计算上易于处理的神经模型设置。我们表明,cryoDRGN2对真实cryo-EM图像的高噪声水平具有鲁棒性,比早期的神经方法训练得更快,并在真实cryo-EM数据集上实现了最1. 介绍近十年来,单粒子低温电子显微镜(cryo-EM)在蛋白质和其他生物分子三维结构测定中的发展和应用取得了爆炸性的增长。在改进的硬件和图像处理算法的并行开发的驱动下,许多不适合晶体学方法的具有挑战性的结构现在已经用冷冻EM以原子或近原子分辨率解决[20,30,37]。用冷冻-EM进行结构测定的核心是目标分子的计算重建3D电子散射势(即体积)。在低温EM实验中,将感兴趣的分子的纯化溶液冷冻在玻璃状冰的薄层中,并使用透射电子显微镜在低温下成像在原始显微照片的初始预处理之后,所得到的成像数据集包含数千到数百万个噪声和随机取向的2D投影图像(图1B)。1a)。冷冻-EM重建任务的目标是推断存在于所记录的图像中的一个或多个底层3D结构。3D重建任务是一个具有挑战性的逆问题,主要是由于未知的图像姿态和大量的噪声在图像中。每个分子采用可变构象的可能性使其进一步复杂化。因此,存在使用冷冻EM来可视化和研究动态蛋白质结构的复杂分布的主要机会,并且已经提出了许多算法来从成像数据集中提取多个结构,称为异质重建[44]。最近的神经方法在实例化表达连续潜变量模型中表现出了对cryo-EM数据结构变异性的承诺特别地,cryoDRGN通过学习用于3D cryo-EM体积的深度生成模型来cryoDRGN的第一个实例使用用于姿态搜索的分支定界(BNB)算法执行姿态和异质性的联合优化(这里称为cryoDRGN-BNB)[55];然而,该版本缩放不佳,并且不能产生真实冷冻EM数据集的高质量重建。在后续工作中,通过修改cryoDRGN以将先前从均匀重建中估计的姿态作为输入,实现了对真实数据的高质量重建,从而省略了困难的姿态搜索过程[54]。通过独立于外在姿态变量估计内在结构异质性,这些方法限于姿态推断保持准确的轻度异质条件。在这项工作中,我们重新审视了联合优化的问题,在cryoDRGN的图像姿态和体积我们尤其40672 !2⇥..··L图1:用于从头重构的cryoDRGN2方法的概述。(a)RAG 1-RAG 2复合物的冷冻EM图像示例[EMPIAR-10049]。(b)多分辨率5-D姿态搜索过程在每次迭代时使搜索网格的分辨率加倍。(c)体积的基于坐标的MLP表示(d)在RAG数据集上的从头训练期间的体积(e)假设的训练时间表交错姿势搜索(昂贵)和体积更新(便宜)时期。模型还可以在初始迭代之后被重置,以避免在训练神经体积时梯度消失。考虑5-D相机姿势优化的上下文中的前馈MLP表示的体积,并提出搜索技术,以解决高渲染时间的MLP相对于基于体素的表示。我们进一步确定了在训练过程中梯度消失的病理情况,我们假设起源于联合优化过程中目标函数的分布变化。通过这些技术,我们提高了cryoDRGN-BNB的速度和准确性,并首次证明神经模型可以在同质和异质真实cryo-EM数据集上实现完全无监督从头计算重建的最新准确性2. 背景及相关工作其中V:R3R是电子散射势(体积),R SO(3),3D旋转群,是体积的未知取向,S(t)是对应于在实空间中通过t R 2的平面内平移的相移算子,其模拟图像内体积的不完美中心。将图像信号乘以g,g是之前显微镜的对比度传递函数(CTF)。被依赖于频率的高斯噪声破坏,并且被配准在尺寸为D的离散网格上,其中D是沿着一个维度的图像的尺寸在这个模型下,观察到图像具有姿态$=(R,t)的X,来自体积V:p(X|R,t,V()=1exp✓X-1。gA(R)V-S(t)X.2◆标准的冷冻EM重建任务包括重建构造单个卷V:R3!R从许多嘈杂和Z2σ2llLL l(二)随机取向的V.作为冷冻EM由于2D图像是体积的正射积分投影,2D图像可以通过傅立叶切片定理[5]与3D体积相关,该定理指出2D投影的傅立叶变换是来自体积的3D傅立叶变换的中心切片。图像的生成过程因此,傅立叶域中的X被写为:X(kx,ky)=gS(t)V(RT(kx,ky,0)T) +(1)其中A(R)V=V(RT(,,0T)是线性切片算子对应于R的旋转和沿实空间中的z轴,l是图像的F_f系数上的双分量指数,σl是在每个频率处预期的高斯噪声的宽度,并且Z是归一化的。金属化常数我们建议读者参考[44],以了解冷冻EM图像形成和重建方法的综述。重建算法被公式化为该统计模型的优化,通常以迭代方式完成4068!-2⇥期望最大化(E-M)或基于梯度下降的方法[44]。在E-M方法中,从初始模型开始,图像与模型对准(E步骤)。然后对准的图像被存在许多用于3D细化的软件工具[43,47,13,35,24]。Scheres [42]首先提出了最大后验概率估计在$i的后验分布上进行优化虽然完全边缘化可以解决姿态变量中的不确定性,但它在计算上要求很高,并且许多算法反而使用姿态的单个最大似然估计在这些迭代方法中,E-M到正确结构的收敛强烈地依赖于初始化,初始化通常从其他数据源获得,例如:负染色EM或来自先前解决的相关结构的近似在Brubaker et al.[6],随机梯度下降被提出用于低分辨率初始模型的数据驱动的从头计算重建,该模型在cryopathy软件包中实现[35]。异构重建:成像的蛋白质复合物的结构异质性是先验未知的,并且可以以许多形式存在(例如,蛋白质复合物)。连续运动与离散的组成变化)。早期的方法将结构建模为从少量体积的离散混合模型生成的结构[41,40,24],并且连续运动的建模此后,提出了用于异质性分析的先进方法,其学习分子变异的连续模型这些方法都用先前提出的图像(例如,图像)对结构异质性进行建模。从同质重建),这将异质性分析的范围限制到一致性重建准确的结构。神经冷冻-EM重建:直到最近,所有实验性冷冻-EM重建方法都使用3D体素阵列来参数化体积。Zhong等人提出了cryo-DRGN [55],这是一种基于坐标的神经架构,用于直接近似连续的3D密度函数。描述cryoDRGN的前期工作提出了姿态和异质性的联合优化,其中具有用于姿态搜索的分支定界(BNB)算法(在本工作中称为cryoDRGN-BNB) [55]。后来的工作 通 过 使 用 来 自 均 匀 一 致 性 重 建 的 图 像 姿 态 将cryoDRGN方法扩展CryoGAN在概念验证阶段提出了一种用于均匀重建的替代范例,其通过分布匹配来满足对图像姿态推断的需求[15]。最近,用于重建的基于学习的方法尝试通过优化参数函数来推断姿势,以近似姿势变量的后验这些方法仅在合成数据集上显示,还有待观察该函数的优化是针对真实的低温EM数据。计算机视觉相关工作:CryoDRGN对蛋白质结构的连续体积表示进行建模,其与计算机视觉的其他领域中使用的3D表示相关[23,31,46,45,26]。最相似的是用于3D自然场景的新颖视图合成(NVS)的神经辐射场(NeRF)模型然而,与用于训练NeRF和相关模型的自然图像数据在优化NVS的NeRF模型的标准设置中[26],相机姿势被视为已知。iNeRF颠倒了这个过程,并通过梯度下降来估计相机姿态,以将预先训练的NeRF模型上的损失直接反向传播到姿态参数中[51]。NeRF-使用梯度下降对相机姿态和3D场景/形状进行联合优化,从其初始随机值更新姿态[49]。在这里,我们表明,梯度下降的冷冻EM重建目标的图像姿态优化失败。相反,我们提出了一个详尽的姿势搜索过程,同时进行优化的体积表示,以实现国家的最先进的性能在真正的冷冻EM数据集。3. 方法在本节中,我们简要概述了cryoDRGN架构。然后,我们描述了cryoDRGN2中的姿势搜索算法和一系列我们用来加速姿势搜索的策略。然后,我们描述了我们的整体训练计划,这说明了在非平稳目标下优化神经模型时的潜在病理3.1. cryoDRGN概述CryoDRGN使用基于坐标的MLP参数化冷冻EM体积,参数✓直接近似连续密度函数V✓:R3R(图第1c段)。该模型在Hartley空间中指定[16](其中与傅立叶空间密切相关,作为实值信号的实减镜像傅立叶分量因此,输入笛卡尔坐标表示Hartley变换系数,并且低温EM图像(即,积分投影)是模型的2D中心切片,其方向由图像姿态确定(第2节)。在异构重建中,体积表示用潜在变量来增强,该潜在变量是在变分自动编码器(VAE)的框架中使用摊销变分干扰来学习的图像姿态$ SO(3)R2被显式地视为笛卡尔坐标格上的几何操作,其跨越[ 0. 5,0。[5]2个输入到模型中。训练cryoDRGN网络涉及优化神经网络。4069⇥⇥⇡-|||--|-·净工作权重和图像姿态,以最大化图像形成下的实验数据的相似模型(等式1)。更多详情,请参见[55]。3.2. 5-D位姿搜索在神经重建中,坐标k(对应于傅立叶系数)的每个模型评估V✓(k)图像这与基于体素的重建形成对比,其中通过线性插值来计算图像像素值。在这项工作中,我们重新考虑的搜索过程,以尽量减少是平滑的。傅立叶空间中的平滑性对应于函数在实空间中在大r处是平坦的,只要模型输出居中并且小于框大小,就满足这一点重要的是,它3.2.2利用廉价的翻译操作员平面内平移搜索不需要额外的模型评估,因为真实空间中的平移映射神经网络评估的数量。乘以傅立叶空间中的指数函数在cryoDRGN 2中,给定图像Xi的姿态$i是估计使用多层次搜索过程旋转和平面内平移空间上的分辨率网格我们首先在5-D空间的旋转和平面内平移中以某个基本分辨率ц0进行穷举搜索,然后对K最可能进行迭代细化通过以相继更高的分辨率进行二分搜索的候选姿态,цM,(Fig. (见第1b段)。我们还采用频率步进[4],其中我们将信号的频带限制为低频分量的图像,并通过姿态细化的M次迭代连续增加频带限制从kmin到kmax;这两者都减少了组合。这降低了推定成本,并且防止了在网格太粗糙而不能对准高频特征时最后,我们注意到,基础网格分辨率的选择对姿态搜索的准确性具有显著影响,并且在现有技术工具中使用的基础网格分辨率在cryoDRGN-BNB中在计算上是不可处理的在接下来的部分中,我们将讨论cryoDRGN 2中姿态搜索过程的各种加速,以实现与传统最先进工具相媲美的快速准确的姿态搜索3.2.1用插值法考虑穷举搜索过程的成本使用15○的基本分辨率和14 ×14的平移基本网格(我们的默认值)导致单个图像的903,168个姿态评估形象每个姿态评估由模型V和中心切片的D2像素之间的平方误差评估为了最小化神经网络评估,我们将基于体素的重建的插值思想与我们的神经模型相结合。代替评估每个姿态中的每个像素的MLP,对于穷举搜索,可以计算频率截止内的3D晶格并且通过插值来计算像素估计。在实践中,我们仅对平面内旋转使用插值,这减少了模型评估。24倍(对于15○分辨率网格),使穷举搜索步骤离开关键路径。插值仅在基础函数其可以被精确地计算而无需附加的模型评估。为了效率,我们将平移应用于(单个)图像,而不是在不同姿势下的4,608个模型估计计算最佳姿态现在包括找到具有大约10 2个平移图像的大约10 5个模型估计之间的最小均方误差(MSE)。利用恒等式(AB)2 =A2+B22A B,可以将所有MSE计算为旋转估计值和转换图像(加上一些范数)之间的单个矩阵乘法,这在现代CPU和GPU架构上既节省内存又非常快。评估翻译基本上是免费的,这一事实使我们找到了一种新的姿势细化方法,它有效地分解了SO(3)上的搜索。r2呼叫独立在SO(3)和R2上的搜索在一些(标准)假设下选项。在早期的工作中,选择前K24个最有可能的候选姿势进行细化;为每个候选人评估23+2个新姿势的网格 在实践中,这些候选者通常对应于同一旋转的多个平移,而其他有希望的旋转被丢弃。在这项工作中,我们选择K8最可能的候选旋转和单个最可能的平移对于这些旋转中的每一个,t;在姿势细化的下一个分辨率下,我们以更高的分辨率搜索2× 3个新旋转的网格,但是检查以2 ×分辨率和.5 ×平移网格范围为中心的候选平移网格点的大网格(参见图10)。1(b)) 这使我们能够追求更大数量的候选姿态,并且使得算法对平移分辨率的选择不太敏感3.3. 训练计划和模型重新初始化传统的冷冻-EM重建包括在-1因为我们只检查最小值对于每个旋转候选,该方法的关键假设是,在给定旋转的情况下,相对于平移的损失表面是单峰的这对于生物数据集在翻译方面是满足的。我们注意到它不满足旋转,例如。具有对称性的分子复合物在偏离全局最小值的每个对称算子处将具有局部最小值,因此关键的是细化多个候选旋转。4070| |参考(E-步骤)和体积估计(M-步骤)。在神经重建中,体积估计由最大似然姿势的重建损失的然而,我们观察到基于坐标的MLP的表示质量受到梯度更新的数量的限制,并且每次更新的计算成本由姿势搜索过程支配(使用姿势搜索比不使用姿势搜索慢约10倍因此,在cryoDRGN2中,我们通过针对N个梯度更新重新使用每个计算的姿势来增加梯度更新的数量具体地,我们将执行姿势搜索的训练时期与重用最新计算出的姿势的时期交替(图1B)。第1e段)。为了简单起见,我们设置恒定的姿态搜索频率(例如, N =5),然而,进一步的加速可能可以用不同的(例如,N =5)来实现。指数)训练时间表。3.3.1梯度消失我们在神经网络训练中观察到一种病理学,即在一个特别具有挑战性的数据集上进行从头计算重建。由于姿态和体积的交替更新,神经网络训练目标在训练过程中发生变化:在早期时期,姿态估计不太准确,导致无法解析大k的特征;因此,SGD通过预测这些高频处的常数函数来最小化L2损失(图4a)。稍后在训练中,当可以解析高频特征时,这些高频预测的梯度相对于输入k和模型参数为0,导致无法在给定新姿势的情况下更新体积近似(图1B)。第4c段)。 我们证实了这是一个消失通过显式计算图4c中突出显示的坐标k的梯度dVk/dwj和dVk/dk)并观察他们是零。由于参数的稀疏或消失梯度而导致的训练病理是有据可查的,并且已经提出了各种解决方案[8,9]。然而,这些分析通常集中在监督学习上,而我们推测正是目标的非平稳性导致了这种病理。我们发现,提出的解决方案,如Leaky ReLU激活[25]或残余校正[18]并没有完全解决问题。我们发现,在训练过程中间歇性地重置坐标MLP模型和优化器状态(同时保留从旧模型推断的图像姿势)解决了消失梯度问题,如图所示4.第一章包括模型重置的训练时间表在图1中示出第1段(e)分段。我们将对这个消失梯度问题的进一步分析以及从旧模型[3]进行热启动训练的替代方法留给未来的工作。方法CDRGN-BNBcryoDRGN2cryoDRGN2网格设置30○ , 2.8pix 30○,2.8pix时间精度时间01:32 0.691时间00:00:230.643表1:姿态搜索算法和超参数选择的比较在预先训练的cryoDRGN模型上测量来自80S数据集的1000个图像的对准的定时和准确度(平均旋转误差)。3.4. 超参数cryoDRGN2姿态搜索算法及其超参数列表见附录A。要为基本分辨率选择合理的默认值,请选择网格数细分M,保持每个细分K的姿势,以及频率行进边界kmin和kmax,我们执行可能值的超参数扫描,通过对齐子集来评估将图像转换为预训练的cryoDRGN模型(附录A)。由于训练速度取决于许多外部因素,因此我们不对这些技术中的每一种进行消融以评估计算加速。相反,我们验证了我们的整体姿势搜索算法是准确的,并比较了我们的重建方法相对于先前工作的整体训练时间(表1)。我们注意到,现有的传统重建方法在 α0=1 50或7的情况下实现了较高的位姿精度。5○在SO(3)上(分别对应于4,608或36,864次旋转)[57],但由于计算限制,cryoDRGN-BNB [55]被限制为10=3 0○(576次旋转)。取决于底层目标的平滑度使用太粗糙的搜索分辨率会导致错过全局最小值。通过上述技术,我们能够使用15〇甚至7的基本分辨率。5○,导致更高的姿态精度(表1)。4. 结果我们定性和定量地评估cryoDRGN2在均相和非均相环境中的从头计算重建我们首先验证我们的姿势搜索算法在合成同质数据集(手,穗)和比较基线方法。接下来,我们在三个真实的可变难度的冷冻EM数据集(80S,RAG12,剪接体)上进行同质重建。我们强调一个particularly具有挑战性的测试情况下的RAG 1-RAG 2复杂。最后,我们展示了合成和真实的异构冷冻EM数据(Linear 1d,spliceo-一些)的异构重建。4.1. 合成数据集的均匀重建数据和设置:我们创建两个合成均质在一个实施例中,用户可以从手的地面真值体积和手的地面真值体积的数据集中提取数据。4071F无噪声SNR=0.1无噪声SNR=0.1姿势VAE6.666.646.676.65姿势GD6.616.656.636.66cryoSPARC0.00150.0710.00030.002CDRGN-BNB0.0070.250.00060.012cryoDRGN20.00030.0270.00010.011表2:通过对地面实况图像姿态的中值旋转误差量化的合成数据集上的均匀重建姿态准确度。平均误差统计见附录。旋转误差定义为||R-R||2之间的预测和图2:地面真实(合成)或参考(真实)体积,下面有相应的示例冷冻EM图像。合成数据集显示无噪声和相应的噪声图像(SNR=0.1)。SARS-CoV-2刺突蛋白(PDB:6VYB)[2],通过遵循标准图像形成模型(50 k图像,D=64/128,手/刺突,附录B了解更多详细信息)。我们测试的无噪声版本和嘈 杂 ( SNR=0.1 ) , 现 实 版 本 的 数 据 集 。 我 们 将cryoDRGN 2与使用分支定界算法进行姿势搜索的两种方法进行比较:先前的工作cryoDRGN-BNB [55]和cryoSPARC [35],用于cryo-EM重建的最先进的传统(基于体素阵列的)软件。冷冻实验的结果是在冷冻实 验 v2.15 中 通 过 从 头 计 算 重 建 此 外 , 我 们 还 将cryoDRGN 2的性能与姿态估计的两种其他范例进行了比较:- 基于学习的姿势推断方法(pose-VAE),其中我们使用变分编码器来预测3D姿势变量和姿势变量的直接基于梯度的优化(pose-GD)。对于姿态- GD,我们随机初始化3D姿态变量,并从预训练模型初始化体积其他实验详情见附录C。我们发现cryoDRGN 2在我们的合成数据集上获得了与 其 他 姿 势 搜 索 算 法 ( cryoDRGN-BNB 和cryoSPARC)类似的高准确性。类似于[48],我们发现基于梯度的方法表现不佳,可能是由于目标相对于姿势的非凸性。在表2中给出了相对于地面实况姿态的姿态误差手的重建体积的可视化在图S2中给出。4.2. 真实数据集数据和设置:我们使用EMPIAR数据库上公开的三个实验性冷冻EM数据集:80 S核糖体(EMPIAR-10028)[50]、RAG 1-RAG 2复合物(RAG 1-RAG 2)[51]、RAG2-RAG3复合物[52][53][54][55][56][57][58][59][59][59][59]。地面实况旋转。图3:来自不同均匀从头计算重建算法的重建体积和参考体积。( EMPIAR-10049 ) [1] 和 前 催 化 剪 接 体 ( EMPIAR-10180)[32,28]。对于所有实验,将图像下采样至D=128。由于不同分子的对比度(即信号)的差异、姿态分布的不均匀性以及潜在结构异质性和对称性的不同程度,真实数据集具有不同程度的难度。由于真实数据集缺乏基础事实,为了产生用于比较的参考模型,我们使用已发布的姿势训练基于cryoDRGN坐标的MLP [54]。我们注意到,已发表的结构最初是使用来自其他相关复合物的先验知识(作为其用于细化的初始模型)获得的,并且在剪接体的情况下,由于复合物的异质性,还涉及许多轮的分层我们对cryoDRGN-BNB和cryoSPARC从头开始重建进行基线,然后进行均匀细化(附录B中的其他详细信息在真实的cryo-EM数据集上,cryoDRGN 2能够从头计算获得高质量的结构,与参考文献的细化相匹配,并且与现有的从头计算方法竞争。我们在表3中报告了估计姿态与参考姿态的差异。RAG和剪接体数据集的重建体积的可视化是方法手尖峰4072F||| |方法是说80年代中值RAG12剪接体是说中值是说中值cryoSPARC0.01860.00013.78060.30840.0853 0.0015冷冻DRGN-BNB0.61510.00204.16214.63712.2187 0.1854cryoDRGN20.05780.00083.42540.03860.1958 0.0046cryoDRGN2+r0.05900.00083.37300.02260.1947 0.0044表3:通过相对于参考的平均/中值旋转误差量化的真实冷冻-EM数据集上的均匀重建姿势准确度。预测姿态和参考姿态之间的旋转误差被定义为||R-R||2在图像集合的全局对准之后。翻译错误统计数据见附录。图4:不同训练阶段神经卷切片的功率谱密度V(k)2。(a)在姿态和V的联合优化的30个时期之后的模型切片。(b)在模型被重新初始化并使用来自(a)的固定姿势训练30个时期之后的模型切片。(c)在(a)中的星号坐标处计算的虚拟损失相对于最后一层权重的梯度的L2范数。在图3中给出。我们还使用傅里叶壳相关(FSC)曲线(图S4、S3和表S5、S6)量化重建体积与地面实况80S:80S核糖体数据集是具有高对比度图像和静态结构的常见冷冻EM基准数据集,并且所有方法都表现良好,具有低姿态误差(表3)和良好的FSC度量(表S5、S6,图S4、S3)。RAG:RAG复合体是更具挑战性的数据集,例如使用相同的公开结构的初始模型的cryoSPARC精修的重复产生0.91/0.03的平均/中值旋转误差。表3中的平均值和中值统计值之间的差异可能来自复合物核心的近似2重对称性。在重建体积的定性比较中,我们观察到高分辨率特征在cryoDRGN2体积中比在cryoSPARC中更清晰(图3)。CryoDRGN-BNB仅产生近似正确的低分辨率形状(图13)。(3)第三章。我们还观察到cryoDRGN 2体积相对于复合物的(非对称)DNA延伸中的参考体积的改善,这可能是由于图像与cryoDRGN2的正确对称拷贝对齐(图S5)。剪接体:CryoDRGN2产生的体积与参考物紧密匹配,具有低姿态误差(图1)。(3)第三章。相对于cryoDRGN 2,cryoDRGN-BNB具有更高的姿态误差,并捕获近似正确的形 状,尽管分辨率低得多使用cryoSPARC的初始结果较差(例如,对于旋转,中值图像对准误差为5.8),然而,一旦基于公布的姿态使图像重新居中,cryoSPARC就能够产生高质量的一致性重建(图3、S4、S3)。4.2.1模型重置我们发现了一个病理性的梯度消失案例,我们假设在RAG复杂数据集上训练时姿势变量的分布变化导致了这种情况(在第3.3节中讨论)。我们注意到,RAG数据集姿态分布朝向优选取向高度偏斜。我们观察到,虽然最初一轮的cryo-DRGN 2训练产生了与参考匹配的低分辨率结构,但在高分辨率(大k)下的模型输出基本上为零(图1中的可视化)。4).我们在训练阶段计算最后一层的梯度的范数(图1)。4),表明初始阶段梯度消失,模型复位后梯度信息恢复。利用姿势搜索(cryoDRGN2+r)对模型的进一步细化能够学习高分辨率特征,同时提高姿势准确度(图1B)。4右,Fig.第1d段)。该观察结果激励了我们的多阶段训练程序(cryoDRGN2+r),并且可能与神经体绘制的其他应用领域相关。4073图5:(a)Linear1d数据集的示例图像。(b)Cryo-DRGN 2粒子图像的潜在嵌入。(c)CryoDRGN2沿着潜在嵌入的PC1轴重建结构。图6:沿着潜在嵌入的PCl轴生成的剪接体的CryoDRGN2重建体积。4.3. 异构重构数据和设置:我们执行从头算异构重建(即在包含大结构变化的两个数据集上的V(z和$is)的联合推断林-ear1d数据集是包含大的连续1D运动的合成数据集[55]。我们从50个模拟连续运动的地面真实模型中生成了 一 个 包 含 50k 张 具 有 CTF 和 噪 声 ( SNR=0.1 ,D=128)的图像的数据集(图1)。(见第5a段)。我们还在催化前剪接体数据集(EMPIAR-10180)上测试了cryoDRGN 2,该数据集包含大的连续运动[28,54,33]。我们与cryoDRGN-BNB进行比较,因为用于重建连续异质性的所有其他方法都需要先前分配的姿势。我们发现,CryoDRGN 2能够重建合成数据集的基础连续1D运动(图1)。图5,图S6)。在剪接体数据集上训练,沿着潜在嵌入的PCl轴取样的图7:从用cryoDRGN 2和cryoDRGN-BNB的从头异质重建结果显示了分子复合物的大规模弯曲(图1)。6),类似于先前的姿势监督分析[28,54,33]。CryoDRGN-BNB在这些数据集中捕获相同的定性运动,但是体积分辨率较低(图S7)。可视化推断的姿态分布突出了cryoDRGN-BNB姿态搜索中的局部最小值(七).5. 结论我们提出了cryoDRGN 2,一种从未标记的2D cryo-EM图像重建蛋白质结构的单一或异质分布的方法通过解决cryoDRGN模型早期无监督优化中的不准确性和计算瓶颈,我们证明神经模型可以实现具有挑战性的真实cryo-EM数据集的从头计算尽管我们在这里重新分析了公开可用的数据集,但我们乐观地认为,这种和未来的改进对于新数据集的结构确定将是这里所示的技术可能在计算机视觉的其他领域中是有用的,包括图形、逆渲染和机器人技术。6. 确认我们感谢MIT-IBM Satori团队提供的计算资源和支持。这项工作由NSF GRFP向E.D.Z.提供资金,NIH授予B.B. R 01-GM 081871,NIH将R 00-AG 050749授予J.H.D.,以及麻省理工学院机器学 习 与 健 康 诊 所 ( J-Clinicfor Machine Learning andHealth)对J.H.D.的资助。和B.B.4074引用[1] 从突触RAG 1-RAG 2复合物结构的V(D)J重组的分子机制Cell,163(5):1138[2] SARS-CoV-2刺突糖蛋白的结构、功能和抗原性Cell,181(2):281[3] Jordan T Ash和Ryan P Adams。温启动神经网络训练。arXiv预印本arXiv:1910.08475,2019。[4] Alex Barnett Leslie Greengard Andras Pataki 和 MarinaSpivak 通 过 频 率 步 进 快 速 解 决 冷 冻 EM 重 建 问 题 。arXiv.org,Oct. 2016年。[5] 罗纳德·N·布雷斯韦尔 射电天文学中的带状积分。Australian Journal of Physics,9(2):198[6] 马库斯·A Brubaker,Ali Punjani,and David J.舰队蛋白质在一天中的作用:高效的3D分子重建。Proceedingsof the IEEE Computer Society Conference on ComputerVision and Pattern Recognition,07-12-June- 2015:3099[7] Muyuan Chen,Steven Ludtke,and Verna Marrs.基于深度学习的混合维GMM用于表征CryoEM中的可变性。arXiv,2021。[8] Djork-Arne 'Clevert , Thomas Unterthiner , and SeppHochre- iter.通过指数线性单元(elus)进行快速准确的深度网络学习。arXiv预印本arXiv:1511.07289,2015。[9] Yann Dauphin 、 Razvan Pascanu 、 Caglar Gulcehre 、Kyunhyun Cho、Surya Ganguli和Yoshua Bengio。高维非凸优化鞍点问题的识别与求解。arXiv预印本arXiv:1406.2572,2014。[10] LucaFalorsi,Pim de Haan,Tim R Davidson,Nicola DeCao , MauriceWeile r, PatrickForr e' , andTacoSCohen.同胚变分自动编码的探索arXiv.org,2018年7月。[11] Joachim Frank和Abbas Ourmazd。通过在cryo-EM中嵌入单粒子数据的流形映射结构的连续变化。方法(SanDiego,Calif.),100:61[12] Krzysztof M Gorski,Eric Hivon,Anthony J Banday,Ben-Wandelt,Frode K Hansen,Mstvos Reinecke,andMatthia Bartelmann. Healpix:一个对分布在球体上的数据进行高分辨率离散化和快速分析的框架。天体物理学杂志,622(2):759,2005。[13] Timothy Grant,Alexis Rohou,and Nikolaus Grigorieff.cis-TEM,用户友好的单粒子图像处理软件。eLife,7:e14874,2018年3月。[14] MiaoGui,Meisheng Ma,Erica Sze-Tu,Xiangli Wang,Fujiet Koh,Ellen D Zhong,Bonnie Berger,Joseph HDavis,Susan K Dutcher,Rui Zhang,et al.对纤毛运动重 要 的 放 射 状 辐 条 和 相 关 复 合 物 的 结 构 。 NatureStructural Molecular Biology,2020.[15] 作 者 声 明 : MichaelT. McCann , Laure`neDonati ,andMichael Unser.CryoGAN:通过深度对抗学习实现单粒子cryo-EM的新重建范例。bioRxiv,2020.[16] 拉尔夫·哈特利。应用于传输问题的更对称的傅立叶分析。Proceedings of the IRE,30(3):144[17] David Haselbach,Ilya Komarov,Dmitry E Agafonov,Klaus Hartmuth , Benjamin Graf , Olexandr Dybkov ,HenningUrlaub,BertholdKastner,ReinhardLuührmann,andHolger Stark.人类剪接体细菌复合物的结构和构象动力学细胞,172(3):454[18] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.深度剩余网络中的身份映射。在欧洲计算机视觉会议上,第630-645页。施普林格,2016年。[19] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[20] Kühlbrandt,Werner.生物化学决议案。Science,343(6178):1443-1444,Mar. 2014年[21] R o yRLederman , JoakimAnd e'n , andAmitSinge r.Hyper-Molecules:on the Representation and Recovery ofDynamical Structures,with Application to Flexible Macro-Molecular Structures in Cryo-EM.arXiv.org,2019年7月。[22] Roy R Lederman和Amit Singer。冷冻EM和许多时间维度的3D电影中的连续异质超对象。arXiv.org,Apr. 2017年。[23] Stephen Lombardi 、 Tomas Simon 、 Jason Saragih 、Gabriel Schwartz 、 Andreas Lehrmann 和Yaser Sheikh 。Neural Volumes : LearningDynamic Renderable Volumesfrom Images(神经卷:从图像学习动态可渲染卷)ACMTransactions on Graphics,38(4):14,jun 2019.[24] Lyumkis,Dmitry,Brilot,Axel F,Theobald,DouglasL,and Grigorieff,Nikolaus.使用FREALIGN对cryo-EM图 像 进 行 基 于 可 能 性 的 分 类 Journal of StructuralBiology,183(3):377-388,Sept. 2013年。[25] Andrew L Maas、Awni Y Hannun和Andrew Y Ng。整流器的非线性改善了神经网络声学模型。在Proc.icml,第30卷,第3页中。Citeseer,2013.[26] Ben Mildenhall,Pratul P Srinivasan,Matthew Tancik,Jonathan T Barron , Ravi Ramamoorthi , and Ren Ng.NeRF :将场 景表示为 用于视图 合成的神 经辐射场ECCV,2020年。[27] AmitMosco vich , AmitHale vi , JoakimAnde'n ,andAmitSinger.通过拉普拉斯光谱体积的连续异质性的Cryo-EM重建arXiv.org,2019年7月。[28] Takanori Nakane , Dari Kimanius , Erik Lindahl , andSjors Hw Scheres.通过RELION中的多体精化表征cryo-EM单粒子数据中的分子运动。eLife,7:e36861,2018年6月。[29] 优素福·SG·纳希德,弗雷德里克·普瓦特文,哈什特·古普塔,格offrey Woollard,迈克尔·卡根,查克·尹和丹尼尔·拉特纳。从低温电子显微镜数据中端到端同时学习单 粒 子 取 向 和 3d 图 重 建 。 arXiv 预 印 本 arXiv :2107.02958,2021。[30] 伊 娃 · 诺 加 利 斯 冷 冻
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功