SARS-CoV-2突变全基因组鉴定与预测：生物信息学和深度学习的综合研究

96 浏览量更新于2024-01-09 收藏 1.17MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

医学信息学解锁27（2021）100798SARS-CoV-2突变的全基因组鉴定和预测显示丰富的变体：生物信息学和深度的综合研究神经学习MdShahadat Hossain a，1，A.Q.M. Sala Uddin Pathan b，1，Md Nur Islam a，Mahafujul Islam Quadery Tonmoya，Mahmudul Islam Rakib b，Md Adnan Munim a，OtunSaha c， Atqiya Farihaa，Hasan Al Reza d，Maitreyee Roy e，Newaz Mohammed Bahadurf，Md Mizanur Rahamanc，*a孟加拉国Noakhali，Noakhali科技大学生物技术遗传工程系b孟加拉国Noakhali，Noakhali科技大学计算机科学和电信工程系c达卡大学微生物学系，孟加拉国d孟加拉国达卡达卡大学遗传工程和生物技术系孟加拉国新南威尔士大学医学与健康学院视光学与视觉科学学院f孟加拉国Noakhali，Noakhali科技大学应用化学和化学工程系A R T I C L EI N FO关键词：SARS-CoV-2基因组数据突变突变率COVID-19A B S T R A C T基因组数据分析是监测病原体进化和传染病爆发的基本系统。基于生物信息学和深度学习，这项研究旨在识别全球SARS-CoV-2的基因组变异并预测即将发生的突变率。259044株SARS-CoV-2分离株分析鉴定出3334545个突变，平均每个分离株14.01个突变。在全球范围内，单核苷酸多态性（SNP）是最普遍的突变事件。在世界范围内， C>T （ 52.67% ）的患病率是最大的变化，其次是 G> T （ 14.59% ）和 A> G（11.13%）。来自印度的菌株显示出最高的突变数量（48），其次是苏格兰，美国，荷兰，挪威和法国有多达36个突变。 D416 G，F106 F，P314 L，UTR：C241 T，L93 L，A222 V，A199 A，V30 L和A220 V mu-发现突变是最常见的突变。D1118 H，S194 L，R262 H，M809 L，P314 L，A8 D，S220 G，A890 D，G1433C，T1456 I，R233 C，F263 S，L111 K，A54 T，A74 V，L183 A，A316 T，V212 F，L46 C，V48 G，Q57 H，W131R、G172V、Q185H和Y206S错义突变被发现大大降低了相应的蛋白质。相反，发现D3L、L5F和S97 I大大增加了相应蛋白质的结构稳定性。多核苷酸突变GGG> AAC、CC> TT、TG> CA和AT> TA在我们的分析中出现，它们在前20个突变队列中。未来突变率分析预测C> T、A>G和A> T在未来分别增加17%、7%和3%相反，7%、7%和6%分别针对T> C、G> A和G> T突变估计减量T> G\A，C> G\A和A> T\C是在未来没有预料到。由于SARS-CoV-2正在不断变异，我们的发现将有助于追踪突变，并有助于绘制全球COVID-19强度的进展1. 介绍严重急性呼吸系统综合征冠状病毒2型（SARS-CoV- 2）是2019年冠状病毒病（COVID-19）持续大流行的病原体，COVID-19在一定程度上是一种呼吸系统疾病显示肺炎样症状，并于2019年12月在中国武汉首次记录[1]。刺突糖蛋白（S）、膜蛋白（M）、内蛋白（E）和核衣壳蛋白（N）是4种重要的结构蛋白，由位于基因组3′端前的结构基因编码，而几种非结构蛋白（NSP）则由位于基因组3 ′端前的结构基因编码。* 通讯作者。达卡大学微生物学系，达卡，1200，孟加拉国。电子邮件地址：razu002@du.ac.bd（上午）Rahaman）。1对本研究同样有贡献https://doi.org/10.1016/j.imu.2021.100798接收日期：2021年9月19日;接收日期：2021年11月6日;接受日期：2021年11月15日2021年11月18日网上发售2352-9148/©2022的自行发表通过Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页：www.elsevier.com/locate/imuM.S. Hossain等人医学信息学解锁27（2021）1007982由位于5′区的基因编码，即NSP1至NSP16 [2]。pp1a和pp1ab在被两种半胱氨酸蛋白酶nsp 3（木瓜蛋白酶样蛋白酶）和nsp 5（胰凝乳蛋白酶样蛋白酶）蛋白水解切割后释放出16种非结构蛋白[3]。RNA依赖性RNA聚合酶（RdRp），也称为NSP 12，是SARS-CoV-2复制和转录机制的重要组成部分[4]。这些非结构蛋白在病毒复制、转录、形态发生和逃避宿主免疫系统中发挥各种作用[2]。SARS-CoV-2由于其独特的结构特性而具有高度传播性，例如平坦的唾液酸结合结构域，与ACE 2入口受体的良好结合相互作用，以及使用弗林蛋白酶和其他蛋白酶细胞受体的能力[5]。突变是导致遗传多样性在复制过程中，特别是在将RNA复制到新细胞的过程中，由于SARS-CoV-2基因组中的某些错误，可能会发生突变[6]。单核苷酸多态性（SNP）、插入和缺失是主要的突变类型。在来自不同地理位置的SARS-CoV-2变体中观察到许多缺失。在新加坡的一个病例群中，2020年1月至2月检测到了一种382个核苷酸缺失的SARS-CoV-2变异体，在一名从中国武汉返回的旅行者中也检测到了这种变异体， 2020年2月到台湾[7，8]，该变异株负责去除ORF7b，通过消除ORF8的转录调控序列阻止ORF8的转录，2020年3月后该变异株虽然成功传播，但未被检测到。在孟加拉国（345个核苷酸）、澳大利亚（138个核苷酸）和西班牙（62个核苷酸）的多个SARS-CoV-2分离株中鉴定出ORF 8缺失[8]。在SARS-CoV-2基因组中发现的大多数突变被预测为中性或中度有害，因为高度有害的改变会迅速清除。在某些情况下，预期最小数量的突变会影响病毒表型，其方式可能影响病毒生物学的几个方面，包括致病性、传播性、感染性和抗原性[9]。尽管重要的是不要混淆不断增长的谱系中存在的突变，病毒生物学[10]，最初发现了在SARS-CoV-2进化的几个月内出现。例如，刺突蛋白中的D614G突变在2020年4月被发现频率增加，并在全球出现了几次[11]。几项研究证明，D 614 G对SARS-CoV-2的感染性和传播性有中度益处[11，12]。然而，SARS-CoV-2的突变率是COVID-19大流行的基础，对于精确解释SARS-CoV-2人口演变和可能的分子适应至关重要。在病毒进化中，突变率是关键参数之一，突变率的微观水平改变可显著改变病毒的特征和宿主免疫系统中的毒力[13]。因此，突变率的精确评估对于假设新出现的传染病如SARS-CoV-2的风险变得重要[14]。此外，基因组序列和突变分析对于发明针对该RNA病毒的有效药物和疫苗至关重要[15]。深度神经学习已成功应用于广泛的在现实世界中面临的具有挑战性的预测问题，如时间序列预测，药物发现，医学图像分析，疾病和疾病亚型分类[16，17]。由于深度学习提供了更准确的预测，因此它经常被认为是处理时间序列预测挑战的噪声和混沌性质的最有前途的策略[17，18]。长短期记忆（LSTM）是一种特定的递归神经网络结构（RNN），是最有效和最广泛使用的深度学习算法之一。LSTM算法可以很容易地收集关于序列模式的信息，但它们旨在处理周期性相关性，并且仅采用来自训练数据集的特征[17，18]。LSTM算法非常适合处理，分类和基于时间序列数据进行预测[20]。LSTM已经被用于几项COVID-19研究，包括突变分析[21在目前的研究中，我们的目的是对SARS-CoV-2基因组进行大规模研究，以确定碱基替换突变以及突变率，使用全球共享所有流感数据倡议（GISAID）数据库中的可用数据集，以解决SARS-CoV- 2基础生物学中的关键知识缺口，并估计其进化的可预测性。从GISAID，我们分析了2019年12月至2020年12月某段时间内从不同国家分离的259044个病毒样本的全基因组序列。我们特别关注在不同日期自由进化的突变，因为这些是SARS-CoV-2进一步适应人类宿主的可能机会。我们还预测了识别的错义突变对其相应蛋白的影响，以追踪可能干扰病毒感染性和传播的有害突变。之后，基于突变分析的结果，我们打算通过基于人工递归神经网络（RNN）的深度学习方法（称为长短期记忆（LSTM））来预测病毒未来的突变率。预计本研究将有助于了解SARS-CoV-2在人体内的进化性质，最终确定自然选择如何从野生种群中固定或消除新的SARS-CoV-2变体，并将帮助制定应对流行病和演变的战略水平。它也可能有助于理解SARS-CoV-2的一些可能的遗传限制，这对于构建进化证明的抗病毒药物和疫苗至关重要。1.1. 相关作品为了预测COVID-19大流行，许多研究人员使用标准预测方法以及统计建模。基于ARIMA（自回归综合移动平均）统计分析模型，Ceylan[27]预测了法国、西班牙和意大利的COVID-19流行模式。ARIMA技术在此类研究中并非最佳，因为COVID-19数据是非线性和非平稳的[28]。Car等人[29]使用MLP-ANN（多层感知器-人工神经网络）模型来预测全球死亡、康复和感染COVID-19患者的数量。Salgotra等人[30]使用GP（遗传编程）估计了2020年1月至2020年5月期间COVID-19对15个感染最严重国家的确诊病例和死亡病例的可能影响。由于嘈杂的时间序列数据以及缺乏训练数据和适当的特征，仅依赖机器学习模型的COVID-19研究遭受了欠拟合或过拟合的担忧。这些研究仅限于回顾性分析和/或仅预测短期趋势[31深度神经学习可以很容易地解决上述问题，并提供更准确的预测[17，35]。LSTM是最成功的深度学习算法之一，已经有效地用于包括突变分析在内的几项COVID-19研究[21基于LSTM模型，Pathanet al.[26]证明，胸腺嘧啶（T）和腺嘌呤（A）大多突变为其他核苷酸而密码子改变不像核苷酸那样频繁。他们还发现，从胸腺嘧啶（T）到胞嘧啶（C）和鸟嘌呤（G），胞嘧啶（C）到鸟嘌呤（G）和鸟嘌呤（G）到胸腺嘧啶（T）的核苷酸突变率增加了0.1%。相反，他们发现T突变为A和A突变为C的减少率为该研究仅使用了3068个SARS-CoV-2样本，2453个训练数据和614个测试数据进行分析。Mercatelli和Giorgi [36]观察到每个SARS-CoV-2分离株平均有7.23个突变，SNP是主要的突变类型。这项研究也仅基于48，635株SARS-CoV-2分离株。基于LSTM模型，Chimmula和Zhand[23]预计2020年6月左右，加拿大的COVID-19疫情将他们的估计有些接近，因为2019冠状病毒病患者人数在2020年5月第二波疫情发生前有所下降。同样，一些研究预测SARS-CoV-2在印度，新西兰，埃及，沙特阿拉伯王国，阿拉伯联合酋长国，科威特，巴林，阿曼和卡塔尔的传播[37Maio等人[41]M.S. Hossain等人医学信息学解锁27（2021）1007983=-- 不超过X=闪=评估了140，000个SARS-CoV-2基因组，并观察到两个特定的突变G到U（尿嘧啶）和C到U被同等地扩增，并且基本上高于导致SARS-CoV-2基因组中大多数突变的所有其他突变率。LSTM模型的准确性随着训练数据数量的增加而增加，因为它可以通过摆脱梯度消失和梯度爆炸问题来提供良好的记忆[42]。在本研究中，我们基于生物信息学和LSTM，研究了259044株SARS-CoV-2分离株的遗传变异性，并预测了病毒在未来时间的突变率，以及错义突变对相应蛋白的影响。LSTM模型的预测准确率为97%，有207236个训练数据和51808个测试数据。2. 方法2.1. SARS-CoV-2基因组数据检索为了研究SARS-CoV-2病毒基因组的遗传变异，我们检索了259044个涵盖所有分支的完整基因组序列，并于2019年12月1日至2020年12月31日提交了所有GISAID数据库[43]。考虑了全长序列（>29000 bp）以及高核苷酸覆盖率（1%Ns;0.05%独特氨基酸突变）用于检索SARS-CoV-2基因组序列的基因组关联与人类感染，并从列表中排除低覆盖率（>5%Ns）基因组参考基因组序列（NC_045512.2）以FASTA格式从美国国家生物技术信息中心（NCBI）参考序列（RefSeq）数据库（www.example.com）下载含有29，903 bp长度的SARS-CoV-2 [ 44 ]https://www.ncbi.nlm。nih.gov/refseq/）上提供。将评分矩阵设定为200 PAM/k2，其中缺口开放罚分和补偿值分别设定为1.53和0.123。然后利用比对的序列构建基于距离的方法“相邻连接”的系统发生树，其中自举共有树从1000个通过NCBI Tree Viewer（https：//www. ncbi.nlm.nih.gov/tools/treeviewer/）上提供。最后，我们通过 PredictSNP [49] ， MAPP [50] ， Polyphen-1 [51] ，Polyphen-2 [51]，SIFT [52]和SNAP [53]网络服务器确定了识别的错义突变对其相应蛋白质的通过所有这些工具预测为有害的突变被认为对其各自的蛋白质有害。然后，通过I-Muc 3.0 服务器（http：//gpcr2.biocomp.unibo.it/cgi/predictors/I-Mutant3.0/I-Mutant3.0.cgi）进一步分析鉴定的有害错义突变，以确定它们对相应蛋白质的结构稳定性的影响。基于“ DD G （ De l t a De l t a G ）三元分类 “ 预测方法，我们将突变分为三类：对蛋白质稳定性具有中性（ 0 . 5 DD G 值 0 . 5 ）影响的突变，大大降低蛋白质稳定性的突变（ DDG值0.5），以及大大增加蛋白质稳定性的突变<(DDG值>0.5）。2.3. 深度神经学习和未来突变预测准备并处理具有2019年12月1日至2020年12月31日的所有核苷酸突变数据的数据集，以基于机器学习方法预测未来突变。在这方面，委员会注意到，分离并标记具有单个或多个突变的每个样品。对于每个突变（A>T\C\G、T> A\C\G、C> A\T\G和G>A\T\C），通过以下公式计算每个样品的突变率（%）：下面的等式，2.2. SARS-CoV-2基因组变异分析通用要素格式（GFF 3）注释文件与Mi（X→Y）=iX=闪烁Y（X→Y）×100NiSARS-CoV-2参考序列从NCBISARS-CoV-2资源（https://www.ncbi.nlm.nih.gov/sars-cov-2/）下载，并用于显示SARS-CoV-2的所有蛋白质序列的基因组序列。ORF1多聚蛋白被分为其非结构蛋白（NSPs）组分，如NSP12。在基因组注释中，编码NSP12的病毒RNA依赖性RNA聚合酶被认为是两个区域，称为NSP12a和NSP12b。通过使用NUCMER v3.1算法[45]对总共259044个SARS-CoV-2基因组序列进行比对，其中NC_045512.2被视为参考序列。通过R（版本4.0.5）软件[46]使用R脚本[36]将比对的输出转换为注释的变体列表，该列表包含核苷酸和蛋白质水平的所有突变事件。然后通过内部R脚本加载注释的变体列表，并检查是否存在除A、C、G和T之外的任何IUPAC（国际纯粹与应用化学联合会）代码。如果有不同的代码，则通过删除它来修复列表。最后，将参考序列与参考序列的GFF3注释文件一起加载。然后根据SNP、插入和缺失对NUCMER对象进行分类。然后将所有SNP合并在一个单独的文件中。同样，所有插入和缺失都是分开的。然后，根据相邻事件(SNPs插入和删除）。查询蛋白质序列的变化在参考序列的GFF 3注释文件上观察到根据变体的突变。然后，通过MAFFT 在线服务器对 10 ， 000 个 SARS-CoV-2 序列进行多序列比对（MSA）[47]，然后通过相同的软件构建系统发育树，以根据突变类型跟踪SARS-CoV-2分离株的地理分布。采用FFT-NS-2程序进行MSA。在这种方法中，首先快速计算低质量的所有成对距离，然后构建一个临时MSA，从中导出精确的距离，最后，二进步对准是进行 48. 或靠近船坞而这里，M是样品i中突变X至Y（X，Y为A、T、C和G中的任一个）的突变率（%），L是样品i中某一突变的出现次数，Ni是该样品的长度然后，使用包含基于百分比的突变数据的数据集随机选择约10万个基因组样本，以在我们有限的资源内正确运行模型所选数据随后被分为80/20%作为训练集和测试集。通过MinMaxScaler（）函数（Scikit-learn机器学习库的一个函数）对训练集进行缩放，并定义了一个时间序列生成器用于预测未来的突变[26]。采用一种称为长短期记忆（LSTM）网络的人工递归神经网络（RNN）建立突变预测模型。该模型使用TimeseriessGenerator进行训练，这是Keras API的一种工具，用于将单变量或多变量时间序列数据集自动转换为监督学习问题，并与测试集进行比较。模型的输入层获得了准备好的200个神经元的训练数据集。然后它已经通过了一个200个神经元的密集层与relu激活层。之后，使用了0.15 dropout。一个密集的12个神经元已被用作输出层。该模型在100个epoch中进行了训练。亚当优化和MSE（均方误差）损失函数用于训练模型。最后，预测了未来2000年SARS-CoV-2变异株的突变率（%）。3. 结果3.1. SARS-CoV-2基因组在全球范围内，共获得了259044个SARS-CoV-2全基因组序列，以调查NC_045512.2武汉参考基因组的总体遗传变异，该分析共鉴定出3334545个突变。大多数样本的含量超过LM.S. Hossain等人医学信息学解锁27（2021）1007984一个突变，其中发现17221个样品含有18个突变，接着分别是17084、14983和14801个样品的17、16和19个突变在1个样品中观察到最高数量的48个突变（图1）。每个样品的平均突变计算为14.01。在SARS-CoV-2的259044个完整基因组序列中，确定了前20个突变最多的样本，我们发现来自印度的样本突变数量最多在48个突变中，分别有11个、33个和4个突变为错义突变、沉默突变和基因外突变。来自苏格兰、美国、荷兰、挪威和法国的样本发现有多达36个突变（图2）。从苏格兰分离的SARS-CoV-2分离株中鉴定出15个错义突变、24个沉默突变和4个基因外突变在从挪威收集的分离株中鉴定出最高的21个错义突变印度、苏格兰、美国、荷兰、挪威和法国分离株中鉴定的突变数量见表S1。从这些大多数突变的样品中鉴定出总共152个错义突变（表S2）。这152个错义突变对病毒蛋白的影响在“对病毒蛋白的突变影响”章节中描述在中国武汉发生SARS-CoV-2后，2019年12月发现了4种突变（图S1），令人惊讶的是，2020年1月，突变数量达到25个（图11）。 S2）。我们注意到这一数字呈指数级增长，并在2020年12月达到48。从每月的序列分析中，我们观察到2020年3月、8月、11月和12月的一些样本有40个突变，而6月、7月和10月观察到35个突变（图1）。S1-S13）。3.2. SARS-CoV-2突变分析了3334545个突变中每一个的性质，并在全球范围内确定了单核苷酸多态性（SNP）的高患病率，而不是简单的缺失/插入（indels）。我们观察到总共1745775个（占总数的52.35%）SNPs（错义突变），其中发现1234456个（占总数的37.02%）沉默（同义）SNPs落在编码区。此外，在基因外区域（SARS-CoV-2 RNA序列的5′和3′非翻译区）和缺失区分别鉴定出337340（10.11%）和10220（0.30%）个突变事件。观察到非常少量的终止密码子产生SNP 4746（0.14%），随后是框内缺失、框内插入和插入，其占所有研究的突变病例的1122、260和518（图3）。类似的突变轮廓是也观察到从每月基础序列Fig. 1. 2019年12月至2020年12月，所有259044份SARS-CoV-2基因组样本发生突变事件的数量。X轴代表突变的数量，Y轴代表SARS-CoV-2基因组样本的数量。最高的17221、17084、14983和14801每个样品分别具有18、17、16和19个突变。一个样本的突变最多，总共有48个（2019年12月至2020年12月）分析表明，SNP是主要的突变事件，其次是沉默SNP和基因外突变（图S1-S13），假设SARA-CoV-2突变进化的保守分子机制。3.3. SARS-CoV-2突变类型为了观察SNP转换（嘌呤到嘌呤和嘧啶到嘧啶）和/或SNP颠换（嘌呤到嘧啶和嘧啶到嘌呤）的普遍性，基于它们的类型对SARS-CoV-2突变进行分类。全球最常见的转型C> T转换事件占SARS-CoV-2突变总数的52.67%（1756440）。第二常见的突变类型以G> T颠换为主，共486610例（14.59%），A> G转换为第三位，共371334例（11.13%）。转换（T> C，G> A）和颠换（G> C，C> G，C> A，A> T）是SARS冠状病毒第4、5、6、8、9、10位常见事件2突变进化一种特殊类型的多核苷酸突变（AAC取代GGG三联体）被观察到是全球第7常见的突变类型，发生率为67596例。除此之外，还鉴定了多核苷酸突变，如CC> TT、TG> CA和AT>TA。ATG密码子的缺失是SARS-CoV-2最常见的indel，1231起事件（图S14）。我们的月度基础突变类型分析还显示，从2020年1月到2020年12月，全球每个月C被T取代是最显著的变化（图S2-S13）。此外，构建了系统发育树，以跟踪SARS-CoV-2分离株的地理分布，根据其突变类型。系统发育树被聚类成三个不同的簇（图1）。 4）. 位于群集1、群集2和群集3中的分离株的C> T转变分别为47.63%、50.16%和54.23%。他们的基因组聚类1、聚类2和聚类3菌株的G>3，分别。聚类1中有9.83%的菌株发生A>G转换，聚类2和聚类3中分别有11.78%和13.28%的菌株发生A> G转换。欧洲的大多数国家都是由第1组主导的第2组，其次是美国、非洲和亚洲。相反，亚洲以第3类为主，其次是美国、欧洲和非洲。3.4. SARS-CoV-2基因核苷酸和蛋白突变分析我们研究了每种遗传变异对病毒的影响，蛋白质序列在SARS-CoV-2基因组的第23403位（A> G转换）、第3037位（C> T转换）、第14408位（C> T转换）和第241位（C>T转换）核苷酸位置观察到最主要的突变（图5）。 A23403G突变导致从蛋白质位置614（刺突蛋白）中的天冬氨酸（D）至甘氨酸（G），其负责病毒通过ACE2受体的初始进入，并与COVID 19的严重程度相关[11]。C14408T突变在非结构蛋白12b（NSP12b）（一种RNA依赖性RNA聚合酶（RdRp））的314位用亮氨酸（L）取代脯氨酸（P）。相反，发现C3037T（F106F）突变是编码NSP3（一种病毒预测的磷酸酯酶）的区域中的同义突变，而C241T突变落在非编码区（5′ UTR）上（图6）。其他常见的鉴定的突变是GGG28881AAC（RG203KR，在核衣壳蛋白中）、C22227T（L93L，在膜蛋白中）、G29645T（A222V，刺突蛋白）、G21255C（A199A，在NSP16中）、C28932T（V30L，在ORF 10中），以及T445C（A220V，在核衣壳蛋白中）（图1A和1B）。5和6）。此外，每月序列分析显示，D614G（刺突蛋白），F106F（NSP3），P314L（NSP12b）和5 ′ UTR：241突变位于2020年3月至2020年12月每月突变分析图表的顶部（图1）。S4-S13）。M.S. Hossain等人医学信息学解锁27（2021）1007985-图二. 2019年12月至2020年12月全球变异最多的SARS-CoV-2样本分布。X轴代表突变最多的SARS-CoV-2样本和收集它们的国家。Y轴代表样品中鉴定的突变数量。来自印度的样品具有最高的48个突变，而所有其他样品中的每一个都处理了超过36个突变。图三. 全球最常见的SARS-CoV-2突变类型。Y轴表示SARS-CoV-2样本中发生的突变事件的数量，而X轴表示针对突变事件观察到的突变类别。SNP是最常见的突变类型，其次是沉默突变和基因外突变。3.5. 对病毒蛋白的我们在SARS-CoV-2的基因组中发现了152个错义突变。确定了这些突变对病毒蛋白的影响，并初步鉴定了46个可能对其相应蛋白产生有害影响的错义突变（表S2）。D1118H和C1243Y突变对刺突蛋白具有有害影响。 D3L、P13L、S183Y、S186Y、S194L、R262H和D377Y具有与D377Y相同的分子量。对核衣壳蛋白的有害作用发现A538T、M809L、P314L、A8D、S220G、A88V和L629F对RNA依赖性RNA聚合酶具有有害作用错义突变 [A890D ， T1063I ， G1433C 和 T1456I] ， [N266I 和 H268L] ，R233C ， [L89F 和 V212F] ， F263S ， [D315Y ， A316T 和 C444Y] ，[L183A和G185E]，T85I，L111K，[A54 T 和A74 V] 分别对 NSP3、 NSP14 、NSP6 、NSP5、 NSP15 、NSP13、NSP16、NSP2、NSP4和NSP8蛋白具有损伤作用。突变[L5 F和R80 I]、S97 I和[L46 C、V48 G、G49 I、Q57 H、W131 R、G172V、Q185 H和Y206 S]被鉴定为具有缺失型。效果对ORF 7a，ORF 8，和 ORF3a 蛋白质，分别。此外，进一步分析这46个错义突变以确定其对相应蛋白质稳定性的影响在46个错义突变中，25个错义突变（D1118 H、S194 L、R262H、M809 L、P314 L、A8D、S220 G、A890 D、G1433 C、T1456 I、R233 C、F263 S、L111 K、A54 T、A74 V、L183 A、A316 T、V212F、L46 C、V48 G、Q57 H、W131 R、G172V、Q185H和Y206S）被发现大幅降低（DDG值<0.5）相应蛋白质的结构稳定性。相反，发现3个错义突变（D3L、L5F和S97I）大大增加（DDG值>0.5）相应蛋白质的结构稳定性。其余突变经鉴定对蛋白质稳定性具有中性（-0.5≤DDG值≤0.5）影响3.6. 预测未来SARS-CoV-2变异株通过对COVID-19患者样本的训练和测试过程，使用长短期记忆（LSTM）网络构建突变预测模型。LSTM模型的预测准确率为97%，可以预测250个未来变体的突变率，M.S. Hossain等人医学信息学解锁27（2021）1007986见图4。代表10，000 SARS-CoV分布的系统发育树-2个分离物的突变类型。区分树的分支的变化被指示为聚类1、聚类2和聚类3。深蓝色表示树枝。(For有关此图图例中颜色的解释，请读者参阅本文的Web版本。）一次98800个训练样本。为了保持模型的大小，我们在训练样本的底部添加了立即预测的样本，并每次扣除前250个样本。通过这个在这个过程中，我们预测了2000个未来变体的核苷酸突变率（%），预测准确率为97%。从这个分析中，我们观察到第1个（图7）和第2000（图8）未来的变体彼此高度偏离。我们注意到C被T取代在以后的变异体中占主导地位，并随着变异体数量的增加而不断增加，第2000个变异体（56%）比第1个变异体增加了约17(39%），表明在未来时间C>T的可能更高增量。相反，在2000年的第一个变体中，T被C取代的比例（2%）比第一个变体（9%）减少了约7%，这表明T> C在未来可能会减少。在G> A和G> T置换的情况下，我们观察到第2000个变体与第1个相比分别减少了约6%和7%，而A> G和A> T置换分别增加了7%和3%。我们没有观察到任何明显的变化，如T> G\A，C> G\A和A> T\C，从第1到2000个未来的变体（图1）。 9）。4. 讨论由于SARS-CoV-2是一种RNA病毒，随着时间的推移，它在人群中不断进化，这助长了它在全球范围内的大规模传播。由于病毒的遗传多样性以及患者的基因组变异，COVID-19的严重程度因患者而异。大部分患者要么保持无症状，要么表现出轻度至中度症状[54]。根据一项队列研究，住院后死亡的患者平均年龄为70多岁，既往病史包括糖尿病和肥胖[55]。这种人与人之间疾病严重程度的差异与多种因素有关，取决于病毒水平、宿主遗传因素和宿主健康状况水平，如高血压、糖尿病、肥胖和肝功能障碍[56基因组序列数据提供了一个很好的机会，通过提供对传播模式、流行病期间的多样性和进化动力学的新见解，来研究不断扩大的病毒群体中的分子变化[61]。目前的研究旨在探索病毒突变在不同时间点的全基因组积累，以识别全球发生的突变，并通过称为长短期记忆（LSTM）的人工递归神经网络（RNN）突变配置文件的的259044SARS-CoV-2分离株2019年12月至2020年12月共识别3334545个突变，平均每个样本14. 01个突变。发现17221、17084、14983和14801样品中的每一个都含有18、17、分别有16和19个突变。在大多数突变的20个样品中，印度样品具有48个突变的最大数量，其次是来自苏格兰、美国、荷兰、挪威和法国的样品（具有多达36个突变）在大量样本中出现如此大量的突变表明SARS-CoV-2的分子进化更快，这可能是使其在时间上更具致命性的原因。与此同时，我们注意到，从SARS-CoV-2出现到2020年12月，突变数量每月呈指数级增加（48个突变），这表明该病毒保持其突变性质，并以随机模式不断进化通过系统树分析，我们观察到欧洲、亚洲、非洲和美国的大多数国家的分离物以约50%的C> T转换、14%的G> T颠换和11%的A> G转换为主。对SARS-CoV-2突变性质的分析证实了SARS-CoV-2突变的保守分子机制。图五. 最常见的SARS-CoV-2突变事件的全球分布（注释为参考基因组上的核苷酸坐标）。Y轴代表SARS-CoV-2样本，X轴代表样本中发现的最频繁的核苷酸替换事件。A23403G、C3037T、C14408T和C241T是全球分布最广的突变。在28881位置处显著的多核苷酸突变（GGG>M.S. Hossain等人医学信息学解锁27（2021）1007987见图6。最常见的SARS-CoV-2突变事件的全球分布（注释为参考基因组上的氨基酸坐标）。Y轴代表SARS-CoV-2样品，其中X轴代表样品中发现的最频繁的氨基酸取代事件。 D614G 、 F106F 、 P314L 和C241T是全球分布最广的突变。这里，S、N、NSP、ORF和M分别表示刺突蛋白、核衣壳蛋白、非结构蛋白、开放阅读框和膜蛋白。见图7。预测未来第一个SARS-CoV-2变异体的核苷酸突变率。Y轴代表被其他核苷酸A（蓝色）、T（橙色）、C（绿色）和G（红色）取代的核苷酸。X轴代表核苷酸取代的突变率百分比。最主要的核苷酸取代事件是C → T，占39%。(For对本图中颜色图例的解释，读者可参考本文的网络版。）见图8。预测的核苷酸突变率为2000未来SARS-CoV-2变异。 Y轴代表被其他核苷酸 A（蓝色）、 T （橙色）、C（绿色）和G（红色）取代的核苷酸。X轴代表核苷酸取代的突变率百分比。最主要的核苷酸取代事件是C → T，占56%。(For对本图中颜色图例的解释，读者可参考本文的网络版。）SARA-CoV-2的突变进化中，错义突变（52.35%）是最常见的长时间突变事件，其次是沉默SNPs（37.02%）和基因外SNPs（10.12%）。在我们的大规模研究中，先前报道的D614G和P314L错义突变也被确定为病毒基因组中最普遍的突变[36]。RdRp中的P314 L突变与D 614 G突变相关，并可能通过增强SARS-CoV-2的传播而有利于SARS-CoV能力[62]。此外，我们在整个病毒基因组中鉴定了152个错义突变，其中46个突变被预测为可能影响病毒蛋白质结构的有害突变，从而改变蛋白质-蛋白质相互作用的稳定性，最终可能影响病毒进入宿主[11]。发现F106F突变主要是NSP3中发生的沉默突变，这表明在mRNA加工中可能发挥作用，这可能改变病毒蛋白的性质[36，63]。M.S. Hossain等人医学信息学解锁27（2021）1007988见图9。2000个未来SARS-CoV-2变异体的总体预测核苷酸突变率X轴代表突变核苷酸，其中在每种情况下第一核苷酸被第二核苷酸取代。X轴表示核苷酸取代的突变率百分比。对于所有预测的2000种未来变体，最普遍的核苷酸取代事件是C至T，其次是G至T、A至G、T至C和G至A。此外，5′ UTR：C241 T突变可能与SARS-CoV-2的转录和复制速率相关，因为发现其发生最显著[36，64]。与之前发现的GGG> AAC突变一起[36]，我们突变类型分析识别有喊叫多核苷酸突变CC> TT、TG> CA和AT> TA，它们是前20种突变类型，并且应该在未来进行监测，因为据报道GGG> AAC（R203 K和G204 R）与N蛋白的SR结构域中赖氨酸的插入相关，这可能影响磷酸化[65]。除D416G、F106F、P314L和5 ′ UTR：C241 T，我们的大规模分析还确定了C22227 T; L93 L（膜蛋白），G29645 T; A222 V（刺突蛋白），G21255 C; A199 A（NSP 16），C28932 T; V30 L（ORF 10）和T445 C; A220 V（核衣壳蛋白）突变，这些突变在我们的研究中发现的前10个突变中，应该在评估它们在SARS-CoV-2 传播效率中的作用方面发挥重要作用。 D1118 H 、（S194 L和R262 H）、（M809 L、P314 L、A8 D和S220 G）、（A890 D、G1433 C和T1456 I）、R233 C、F263 S、L111 K、（A54T和A74 V）、L183 A、A316 T、V212 F和（L46 C，V48 G、Q57 H、W131 R、G172 V、Q185 H和Y206 S）错义突变被发现大大降低刺突蛋白、核衣壳蛋白、RNA依赖性RNA聚合酶、NSP3、NSP6、NSP15、NSP4、NSP8、NSP16、NSP13、NSP5和ORF 3a蛋白的结构稳定性，并提示这些错义突变可能降低病毒的感染性。相反，发现D3L、L

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

SARS-CoV-2突变全基因组鉴定与预测：生物信息学和深度学习的综合研究

生物信息与深度学习

与SARS-CoV-2（COVID-19的病原体）的测序和分析有关的文件和方法。_Python_Shell_下载.zip

SARS-CoV-2:每日分析基因组SARS-CoV-2数据

SARS-CoV-2基因沉默：潜在siRNA和miRNA序列预测与治疗应用

SARS-CoV-2宿主基因的表达变异与COVID-19易感性的关系

SARS-CoV-2 C241T突变影响宿主复制因子的转录效率

SARS-CoV-2包膜蛋白突变对热力学性质的影响

目前sars-cov-2测序的最新进展

pytest-cov>=2.0安装方法

PermissionError: [Errno 13] Permission denied: 'D:\\Ag_sequ\\SARS-COV-2(lgG)1'

pytest-cov

报错This relative module was not found: * ./lib-cov/fluent-ffmpeg in ./node_modules/fluent-ffmpeg/index.js

ERROR: pytest-astropy 0.8.0 requires pytest-cov>=2.0, which is not installed. ERROR: pytest-astropy 0.8.0 requires pytest-filter-subpackage>=0.1, which is not installed 翻译一下

设随机变量X与Y的协方差Cov(X,Y)=0.5, D(X)=1, D(Y)=2, 则Cov(2X,X-Y)的值为()

correlations <- cov2cor(covariances) Error in cov2cor(covariances) : 'V'不是正方形的数值矩阵

Can't resolve './later-cov' in 'C:\Users\xm\Desktop\workspace\miracle-ui\node_modules\later'

这句matlab代码： KLD=1/2*(trace(pinv(cov2)*cov1)+(u2-u1)'*pinv(cov2)*(u2-u1)-trunc_len+log(det(cov2)/det(cov1)));，改写成python

最新资源

这句matlab代码： KLD=1/2(trace(pinv(cov2)cov1)+(u2-u1)'pinv(cov2)(u2-u1)-trunc_len+log(det(cov2)/det(cov1)));，改写成python