没有合适的资源?快使用搜索试试~ 我知道了~
COVID-19病毒起源及传播研究:Ngram、主成分分析和随机森林算法
医学信息学解锁24(2021)100577基于Ngram、主成分分析和随机森林算法Hamoucha El Boujnounia,*,Mohamed Rahdha,Mohamed El Boujnounib摩洛哥拉巴特穆罕默德五世大学科学系植物和微生物生物技术、生物多样性和环境研究中心,邮政信箱1014b摩洛哥贾迪达Chouaib Doukkali大学国家应用科学学院信息技术实验室,邮政信箱1166A R T I C L EI N FO关键词:生物信息学基因组SARS-CoV-2COVID-19Ngrams主成分分析随机森林算法A B S T R A C TCOVID-19是由新发现的SARS-CoV-2病毒引起的传染病。该病毒引起呼吸道感染,症状包括干咳、发烧、疲劳,在更严重的情况下,呼吸困难。SARS-CoV-2是一种传染性极强的病毒,正在世界各地迅速传播,科学界正在不懈地努力寻找有效的治疗方法。本文旨在通过将其核酸序列与冠状病毒科所有成员进行比较来确定该病毒的起源。本研究使用了一种新的方法,基于三种强大的技术的组合:Ngrams(用于文本分类),主成分分析(用于降维)和随机森林算法(用于监督分类)。实验结果表明,从世界各地不同地点收集的大量SARS-CoV-2基因组与穿山甲中发现的基因组存在显著相似性。这一发现证实了之前通过其他方法获得的一些结果,这也表明穿山甲应该被认为是新型冠状病毒出现的可能宿主1. 介绍2019年12月下旬在中国武汉新发现的一种人类冠状病毒新成员,被国际病毒分类委员会正式命名为SARS-CoV-2(严重急性呼吸综合征冠状病毒2型)[1]。这是一种新的RNA病毒株,以前从未在人类中发现由这种病毒引起的疾病最常见的症状是发烧[2]、疲倦[3]和干咳[4]。有些患者可能会出现疼痛[4]、鼻塞、流鼻涕[5]、喉咙痛、腹泻[4]或味觉或嗅觉丧失[5]。这种疾病可以通过感染者咳嗽或打喷嚏时产生的呼吸道飞沫传播[6]。这些液滴落在人周围的物体和表面上。其他人可能会通过接触这些被污染的物体或表面,然后触摸他们的眼睛,鼻子或嘴来感染SARS-CoV-2。世界各地的一些科学家已经进行了研究,与这种病毒作斗争,特别是通过确定其起源、症状、原因、诊断、治疗等。了解这种病毒的起源不仅对确定这种大流行病的原因和避免未来的大流行病非常重要,而且对我们与生态系统的相互作用,野生动物和家畜的繁殖,一些实验室的做法,等等。关于这种病毒的起源,自从这种流行病出现以来,已经发表了许多研究论文这些基于理论和实验方法的研究显示了SARS-COV-2的各种起源。例如,Paraskevis等人[7]发现新冠病毒与蝙蝠中检测到的BatCoV RaTG13关系最密切。在他们的研究中,他们使用了各种方法和软件:RDP4,Simplot v3.5.1和最大似然和贝叶斯方法的系统发育分析。Zhou et al.[8],他表明SARS-COV-2在全基因组水平上与蝙蝠冠状病毒有96%的相同性。他们使用了一种基于病毒分离、细胞感染、电子显微镜和中和试验的实验方法,然后进行RNA提取和PCR(聚合酶链反应)、血清学检测、ACE 2受体检查等方法来检测2019-nCoV感染。采用高通量测序、病原菌筛选、基因组拼接和系统发育分析等方法进行研究。Luan等人进行了另一项研究[9],并建议将牛科和蟋蟀科纳入SARS-CoV-2中间宿主的筛选中。他们的工作方法首先是ACE 2的序列分析,然后使用SWISS-MODEL在线模拟ACE 2-RBD复合物的结构* 通讯作者。电子邮件地址:helboujnouni@gmail.com(H. El Boujnouni)。https://doi.org/10.1016/j.imu.2021.100577接收日期:2021年1月24日;接收日期:2021年4月12日;接受日期:2021年4月13日2021年4月20日网上发售2352-9148/©2021的 自行发表通过Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)中找到。可在ScienceDirect上获得目录列表医学信息学期刊首页:http://www.elsevier.com/locate/imuH. El Boujnouni等人医学信息学解锁24(2021)1005772=表1从随机基因组“TGATTTGATGCAA”中提取Ngrams的示例。N=3N=6N=9Ngrams出现次数Ngrams出现次数Ngrams出现次数1TGA 2ATGCAA 1ATTTGATGC 12GAT 2TTGATG 1TTTGATGCA 13ATT 1TGATGC 1TGATTTGAT 14TTT 1ATTTGA 1TTGATGCAA 15GCA 1GATTTG 1GATTTGATG 16ATG 1TTTGAT 17TGC 1TGATTT 18TTG 1GATGCA 19CAA 1Fig. 1. 用主成分分析法减少重复性。服务器和Chimera软件版本1.14。在另一项研究中,Qiu et al.[10]预测SARS-CoV-2倾向于利用各种哺乳动物(被认为是中间宿主)的ACE 2,除了鼠类和一些鸟类,如鸽子。为了实现这些结果,他们结合了遗传学分析和关键部位标记。关于这种病毒的中间动物来源的另一项相关研究是由几位科学家进行的,他们同意穿山甲应被视为新型冠状病毒的中间宿主。他们采用了各种策略来研究SARS-CoV-2的起源。例如,Wong等人[11]使用bbduk.sh v38.71,bbmap.sh v38.71和Vir MAP进行基因组分析Lam等人[12]应用穿山甲基因组测序,然后进行系统发育和重组分析。Zhang等人[13]使用了基因组组装和基因预测,然后进行基因组学。和韩[14]对RBD进行了热分析在另一篇研究论文Shi等人[15]进行了一项实验研究,包括四个连续步骤:(i)分离SARS-CoV-2(ii)将SARS-CoV-2接种到(雪貂、猫、狗、猪、鸡和鸭)(iii)通过PCR定量不同器官和组织中的SARS-CoV-2抗体,最后通过ELISA和中和试验检测SARS-CoV-2抗体。作者表明,SARS-CoV-2在狗、猪、鸡和鸭中复制很差,但雪貂和猫可以作为这种病毒的中间宿主本文提出了一种新的方法来确定SARS的起源通过将CoV-2的基因组与冠状病毒科的其他病毒进行比较[16]。该分析通过来自机器学习和数据挖掘的三种强大技术进行,这些技术成功地工作:第一种是Ngrams[ 17];其作用是从给定的基因组序列中提取相关信息,并以可利用的数字形式呈现。第二种是主成分分析[18],它通过将提取的信息投影到低维空间来降低其维数,最后一种是随机森林(RF)算法[19],将用于对减少的信息进行分类并找到不同序列之间的生物同源性。2. 材料和方法2.1. 基因组的Ngrams分析在语言建模中,Ngrams [17]是从文本中提取的字符或单词序列。它可以分为两类:基于字符和基于单词。前者是从一个词中提取的N个连续字符的集合。这种方法背后的主要动机是,相似的单词将具有很高的Ngrams共同比例第二个是从文本中提取的N个连续词的集合词级Ngrams模型对于语言的统计建模以及信息检索都是非常鲁棒的Ngrams已经应用于许多医学和生物学领域,例如:蛋白质分类[20],人类免疫缺陷预测[21],解释DNA序列的隐藏信息[22]等。表1显示将Ngram应用于随机序列“TGATTTGATGCAA”的结果其中N= {3, 6, 9}的值不同。2.2. 基于主成分分析的已知的是,在给定的DNA或RNA中的含氮碱基的可能数目是4(A,G,C,T或A,G,C,U)。统计上,N=3的Ngrams将给出43=64个可能的3-g,并且当N等于6时,总的可能的6-g呈指数增长并且变为46=4096,并且如果我们进一步将N的值增加到9,则9-g的数目达到49262144。解决方案是将这个大的属性集转换为一个较小的仍然包含大部分信息的属性集。这个任务可以通过一种众所周知的技术来执行,称为principal成分分析(PCA)。 这Karl Pearson发明的降维方法[18]。它将每个数据点仅投影到前几个主成分上,以获得低维数据,同时保留尽可能多的数据H. El Boujnouni等人医学信息学解锁24(2021)1005773表2冠状病毒科实验数据集的详细内容甲型冠状病毒1型冠状病毒BtRt-BetaCoVGX2018夜鹭冠状病毒HKU19蝙蝠α冠状病毒-CoVP。kuhlii意大利206645-412011蝙蝠α冠状病毒-CoVP。kuhlii意大利206679-32010蝙蝠α冠状病毒-CoVP.kuhliiItaly3398-192015α冠状病毒BtMs-AlphaCoVGS 2013冠状病毒BtSk-AlphaCoVGX 2018 A冠状病毒BtSk-AlphaCoVGX 2018 B冠状病毒BtSk-AlphaCoVGX 2018 C冠状病毒BtSk-AlphaCoVGX 2018 D绒毛叶蝉冠状病毒SC- 2013穿山甲冠状病毒伏翼蝙蝠冠状病毒HKU5相关伏翼蝙蝠冠状病毒HKU5中国水貂12016猪流行性腹泻病毒图二.使用RF进行二元分类(A类或B类)。由K决策树α冠状病毒冠状病毒Cya-BetaCoV 2019禽冠状病毒Cyb-BetaCoV 2019鹌鹑三角洲冠状病毒兔冠状病毒HKU14数据图1描述了将PCA应用于包含N个样本{x,x,...,x}。蝙蝠Hp-β冠状病毒浙江2013冠状病毒cyc-BetaCoV 2019菊头蝠冠状病毒HKU 2-12N刺猬蝙蝠冠状病毒相关菊头蝠2.3. 使用RF算法蝙蝠冠状病毒HKU31冠状病毒HKU2冠状病毒在机器学习中使用的算法中,我们选择了RF分类器用于识别COVID 19的起源。这种机器学习技术最早是由LeoBreiman [19]提出的,他的灵感来自于猫冠状病毒1冠状病毒HKU32蝙蝠冠状病毒1A雪貂冠状病毒菊头蝠铁甲喹冠状病毒HuB-Amit和Geman的工作[23]。这是一个强大的算法, 大量的个体决策树作为一个整体运行。 一 决定 树 是 一 非参数 监督学习用于分类和回归的方法它是一个类似于蝙蝠冠状病毒BM 48 -31 BGR 2008蝙蝠冠状病毒CDPHE15刺猬冠状病毒1波摩那蹄蝠冠状病毒CHB252013啮齿动物冠状病毒埃及红头蝠冠状病毒229 E-树结构,其中每个内部节点表示对属性的测试,每个分支表示测试的结果,并且每个终端节点保持类标签。RF算法的优点是预测,蝙蝠冠状病毒HKU10波摩那蹄蝠冠状病毒HKU10相关蝙蝠Rousettus bat冠状病毒GCCDC 1委员会比任何一个人都更准确和稳定树类似于决策树,RF可用于分类(输出白鲸冠状病毒SW1人冠状病毒229E鲁赛特蝙蝠冠状病毒HKU9是预测的模式),回归(输出是人冠状病毒HKU1 SARS样冠状病毒预测)。在生物信息学中,RF被广泛应用于许多领域,例如:基于DNA的年代学年龄预测[24],β冠状病毒人冠状病毒NL63WIV 16黑蝠冠状病毒512基于DNA条形码的物种[25],oeso中的结果预测食管癌[26]。图2示出了由K宽吻海豚状病毒蝙蝠冠状病毒HKU25库利氏暗蝠冠状病毒512相关用于分类任务的决策树。从这个图BtRf-AlphaCoVYN 2012鹿城Rn大鼠状病毒鼩 鼱冠状病毒每个树产生一个单独的决策(A类或B类),然后RF将它们合并在一起以获得更准确和稳定的预测。2.4. 数据集本研究是在一个大的数据集上进行的,该数据集由两部分组成:前者包含了冠状病毒科96个物种的2649个基因组的完整核酸序列。第二包括10313 SARS-CoV-2基因组收集从homo-来自世界各地的智人 使用的基因组白头翁冠状病毒HKU11骆驼冠状病毒HKU23加拿大鹅冠状病毒中国鼠冠状病毒HKU24黑水鸡冠状病毒HKU21喜鹊冠状病毒HKU18中东呼吸综合征相关冠状病毒长翼蝠冠状病毒1长翼蝠冠状病毒HKU8微小长翼蝠冠状病毒HKU8相关麻雀冠状病毒HKU17麻雀三角洲冠状病毒猪急性腹泻综合征相关冠状病毒猪肠道副冠状病毒本研究中的序列与SARS-COV-2的第一个RNA序列相对应冠状病毒AcCoV-JC 34鹅口疮冠状病毒收集 之前 任何 突变 是 found. 两 部分 已冠状病毒BtRl-蝙蝠冠状病毒1相关HKU 12 -600下载 来自国家生物技术信息BetaCoVSC 2018水貂冠状病毒1 Tylonycteris bat coronavirusHKU33[16 ]第10段。用于识别SARS-CoV-2的数据集的详细描述见表2。2.5. 实验方案冠状病毒BtRs-AlphaCoVYN2018冠状病毒BtRs-BetaCoVYN 2018A水貂冠状病毒WD 1133株文鸟冠状病毒HKU13Tylonycteris batcoronavirus HKU4厚柄蹄蝠冠状病毒实验方案通过如图3所示的五个步骤进行。第一步是收集所有冠状病毒科病毒的基因组。第二步是对先前收集的基因组集合此步骤首先从提取冠状病毒BtRs-BetaCoVYN 2018B冠状病毒BtRs-BetaCoVYN 2018C文成鼠冠状病毒红眼病冠状病毒HKU16(接下页)H. El Boujnouni等人医学信息学解锁24(2021)1005774()下一页2==--=-表2(续)基因组当N增加时,N={3, 4},甲型冠状病毒1型冠状病毒BtRt-BetaCoVGX2018鼠耳蝠立克次氏体冠状病毒Sax- 2011夜鹭冠状病毒HKU19代表基因组增长43,44,出现率变低。然而,核酸序列的描述变得更准确。冠状病毒BtRs-BetaCoVYN 2018DNL 63相关蝙蝠冠状病毒株BtKYNL63 - 9 bWigeon冠状病毒HKU203.2. 基于PCA的图图4-6显示了每个主成分相对于N值的方差解释的累积比例(CPVE)。在区间2、 3、 4中选择值,提取的实例描述于表1中。不同基因组之间共享的Ngrams将形成共同的基础。接下来,每个基因组的Ngrams表示将在此共同基础上表示第三步是降维;它首先对数据集进行归一化,然后使用主成分分析来降低其维数。在本实验中,选择累积解释方差小于95%。第四步是自动学习过程,其中冠状病毒科(SARS-COV-2除外)将用于训练RF算法并调整其超参数[27]。最后一步使用RF的最佳模型来识别10313个SARS-CoV-2样本的来源。图3详细描述了识别SARS-CoV-2所遵循的程序。该实验使用R作为编程语言进行其中,实验在具有i5- 7200 U CPU@2.50的计算机上进行GHz(4CPU),12 GB RAM。3. 结果和讨论3.1. Ngrams提取表3示出了Ngram的应用的示例,其中N=,3, 4对SARS-COV-2。可以看出,当N= 2时,该病毒的序列用4 2表示 16个属性是发生的 所有 可能的2-g 的 可以 被 发现 在 SARS-CoV-2 基因组(例如“AA”,“TG”,此外,可以注意到,给定的2-g非常高。这可以用以下事实来解释:在给定的序列中,很有可能找到仅由两个特定核苷酸组成的序列。其从2到4变化。红色的水平线表示对应于CPVE等于95%的阈值。它们将用于决定主成分的数量,以保持充分降低数据集的维度。以图4为例,其中N=2的Ngram用于从基因组中提取特征。如前所述,可能的Ngrams的数量是42 16,因此每个基因组将由16个值的向量表示。使用PCA,我们可以通过计算主成分并使用它们来对数据集执行基础更改来减少这个数字。通过该图可以看出,前两个主成分解释了数据集中约85.5%的总变异。因此,每个基因组的新表示成为仅具有两个分量的向量。当N3(图5)和N4(图6)允许分别用4个值而不是64和7个值而不是256的向量表示每个基因组时,应用相同的方法。表4显示了在表3中用Ngrams表示的相同SARS-COV-2基因组上应用Ngrams然后PCA的结果。 可以看出,PCA成功地减少了Ngrams获得的属性数量,这将简化RF的任务3.3. 使用网格搜索训练RF和超参数选择用我们的方法识别SARS-CoV-2起源需要一个初步步骤,其中必须确定RF算法超参数的最佳值[27]。这些值对应于冠状病毒科成员的最大分类准确度(2649个样品)。在该训练步骤中,执行了用于调整这些超参数的网格搜索空间,该网格搜索空间考虑了N元语法的数量的影响和PCA的效果。有关的超参数是:ntree:RF算法中树的数量,很明显,树的数量越多,产生的模型越稳定,但需要更多的内存和更长的运行时间。这个超参数将在区间{31, 32, 33}内变化。图三. SARS-CoV-2鉴定流程图。标题详细说明了从输入(SARS-CoV-2和冠状病毒科完整基因组)到输出(SARS-CoV-2的可能起源)的不同步骤。·H. El Boujnouni等人医学信息学解锁24(2021)1005775=--表3N=2, 3, 4的N-gram在SARS-COV-2样本上的应用物种N值NgramsSARS-CoV-223213,2587,2843,2303,2368,1989,2085,2072,2020,1739,1611,1410,1166,1089,883,43731005,819,857,888,874,769,722,700,759,630,810,620,703,716,736,579,553,674,552,536,606,547,537,617,454,485,605,439,556,550,520,507,470,515,494,371,426,438,458,299,341,340,268,354,372,279,295,340,285,210,169,163,187,114,468,327,223,112,96,96,133,88,76,744330,245,302,246,289,255,231,199,250,239,216,244,206,174,164,187,203,161,176,158,168,170,164,78,85,157,138,137,144,109,94,78,80,257,234,189,273,208,207,209,204,258,217,186,241,195,190,192,166,169,156,213,196,188,127,141,151,103,195,157,98,173,142,151,161,113,164,117,95,125,98,102,100,89,138,108,105,103,81,98,87,71,45,191,195,210,179,214,165,199,153,183,128,156,172,130,145,163,120,127,149,130,121,157,119,114,167,107,133,115,116,91,131,89,76,77,70,52,40,285,207,168,146,179,143,138,167,135,124,122,143,107,110,117,130,112,109,81,84,93,90,85,81,78,97,67,62,212,166,159,121,138,131,118,80,98,117,79,63,29,52,42,21,137,135,94,111,49,80,97,56,42,34,32,61,65,56,75,293,82,47,37,129,91,101,62,48,32,30,29,29,200,20,29,28,53,38,31,19,109,26,15,111,53,17,41,30,22,77,45,17,17,21,16,249,22,244,261,153,95,54,49,27,33,257,115,115,15,222,37,54,94,55,22,13,48,32,61,95,17,10,58,38,13,12,29,13,14,32,14,21,37,14,10,22,20mtry:在每次拆分时作为候选数据随机采样的特征(预测因子)数量,其默认值为特征数量平方根的舍入[27]。为了更小心,mtry将在由三个值构成的区间内变化:(所有预测变量总数的平方根),(该平方根值的一半)和(平方根值的表5示出了对RF算法的控制超参数的灵敏度分析,其考虑了N元语法中的N对于每种参数组合,该表给出了RF学习冠状病毒科家族的准确性(SARS-COV-2除外)。使用k折交叉验证(k10)评估分类准确度[28]。这意味着数据集被随机分为十个子集。每个部件都用作在其他九个子集上训练的RF的测试子集。取所获得的10个误差项的平均值。该过程将重复10次,并且最终结果将被重新平均。该表还示出了一个关键信息,该信息是在给定的ntree和mtry间隔中搜索RF的最佳超参数所需的运行时间。从表5中可以看出,当ntree等于27时,总是实现最佳准确度,其对应于ntree中的最大值。变异区间3,9,27 .这是一个预期的结果,因为树的数目增加,分类结果变得更多见图4。各主成分解释方差的累积比例。N=2准确(许多树参与集体决策)。 然而,这个有希望的结果并非没有缺点,因为它在运行时列级别上清晰可见。此外,可以观察到,最好的AC-curacy并不总是对应于默认的mtry值。因此,在一个时间间隔内改变mtry是合理的。此外,可以强调的是,当Ngrams(N)的参数增加时,准确度增加。 这可以解释为Ngrams具有较大N的矩阵将从矩阵序列中提取更多的信息。但是,这个令人满意的结果在运行时间方面并非没有代价,它随着N(ntree和mtry是常数)而增加。此外,PCA的效果非常显著。它允许减少从每个基因组中提取的特征的数量,同时实现可比较的结果在精度方面与使用所有特征(没有PCA)发现的结果相同。此外,PCA的使用允许减少调谐RF的超参数所需的运行时间。在下一步中,使用网格搜索找到的最佳超参数将用于构建鲁棒RF以识别SARS-CoV-2的起源。3.4. 寻找SARS-CoV-2的起源图图7- 9显示了未使用PCA的SARS-CoV-2的来源。可以看出,当N=2时, RF给10313 SARS-COV-2一个原点见图6。各主成分解释方差的累积比例。N=4表4N=2, 3, 4的N-gram随后PCA在SARS-COV-2样本上的应用。的N图五. 各主成分解释方差的累积比例。N=32 1.7158131143720,0.4418335738713,0.05706619680304-1.2299304981050,3.9345058563130,0.6165315842700,-0.2268199446313,-0.0771337837728,-0.1955765124330,-0.1608062654392·物种值NgramsSARS-20.4831962439710,-0.7451479383900COV-30.6808870079172,-H. El Boujnouni等人医学信息学解锁24(2021)1005776表5搜索N-gram、ntree、mtry的最佳值(最佳准确度以粗体标记),使用和不使用PCA。不,克数量的特征ntree米特里模型精度搜索最佳ntree和mtry值的时间(秒)最佳参数(ntree,mtry)与PCA22310.95120122.439439(27(1)320.9615666910.97949642.482191920.96411082710.98204072.9112882720.973075734310.96929852.560438(27(2)320.96664543 40.966675410.98334273.1706739 20.98461469 40.98334252710.98589703.8430252720.98717892740.979496247320.97056072.627833(27(2)330.967898139620.96922960.98847093.070224930.9846048927620.98846090.99230744.0289822730.99102532760.9884906没有216320.97050152.632825(27(2)PCA340.965412839820.97825380.99099572.972137940.9846247980.98847092720.99486174.449322740.98975322780.9859265364340.98462443.49078(27,4)380.9679769391640.97182330.99228753.895493980.98594629160.98717892740.99358946.4990272780.992307427160.98975294256380.97058066.512125(27,8)3160.9589921393280.97438760.98339178.845269160.98849069273280.98973330.996153715.3380427160.989762927320.9948617H. El Boujnouni等人医学信息学解锁24(2021)1005777联系我们=见图7。 10313例SARS-CoV-2样本的来源,N=2,ntree= 27,mtry=2无PCA。见图8。10313个SARS-CoV-2样本的起源,N=3,ntree= 27,mtry= 4,无PCA。见图9。10313个SARS-CoV-2样本的起源,N=4,ntree= 27,mtry= 8,无PCA。穿山甲的基因组随着N的增加,出现了新的起源它是一种代表性很小的甲型冠状病毒。RF质量的这种下降是由于当N增 加 时 , 该 分 类 器 将 难 以 选 择 最 佳 特 征 来 分 割 节 点 ( 以 构 建树),因此使用PCA进行预处理是有用的。图图10- 12显示了使用PCA的SARS-CoV-2的起源,见图10。10313份SARS-CoV-2样本的来源(使用PCA)。其中N=2,ntree=27,mtry= 1。图十一岁 10313份SARS-CoV-2样本的PCA 来源。当N=3时,ntree=27,mtry= 2。图12个。 10313例SARS-CoV-2样本 来源的 PCA分 析 (N = 4,ntree)=27且mtry= 2。RF超参数的最佳值。N的值在区间2、 3、 4中是可变的。可以观察到 , 当 N2 时 , RF 产 生 SARS-COV-2 的 3 个 来 源 , 即 : 穿 山 甲(10301)、Alphacoronavirus-1(3)和人冠状病毒HKU1(9)。当N3或4 RF仅提供10313份SARS-CoV-2样本中的一个来源是穿山甲。如果我们假设一种病毒不能H. El Boujnouni等人医学信息学解锁24(2021)1005778有不止一个起源。此外,由于PCA降低了每个基因组的维度(例如表3与表4),因此还将减少用RF预测SARS-COV-2起源所需的运行时间。总之,使用具有高N值的Ngrams,然后使用PCA和RF,有助于在有限的时间内更好地识别SARS-CoV-2的起源。4. 结论本文提出了一种新的方法,基于三个强大的技术,成功地运作,以确定SARS-CoV-2的来源。前者是Ngram,它被广泛用于文本分类;它从不同的核酸序列创建特征向量。二是主成分分析;它用于巧妙地减少Ngrams生成的大量信息,同时尽可能多地保持数据的变化。最后一种技术是一种被称为RF的监督机器学习算法,这些简化的载体,并检测SARS-CoV-2和其他冠状病毒科病毒的基因组之间的相似性。本实验利用我们的方法在大规模基因组数据集上进行,结果表明SARS-CoV-2起源于穿山甲。这项研究证实了之前的一些发现,即穿山甲是COVID-19传播给人类的罪魁祸首,并驳斥了其他人畜共患病起源的人,如蝙蝠,雪貂,猫等。竞合利益提交人说,不存在利益冲突确认一个也没有。没有资金申报。引用[1] Tang X,Wu C,Li X,Song Y,Yao X,Wu X,Duan Y,Zhang H,Wang Y,Qian Z,CuiJ,卢杰关于SARS-CoV-2的起源和持续演变。国家科学评论2020;7(6):1012-23。https://doi.org/10.1093/nsr/nwaa036网站。[2] Aloysius MM,Thatti A,Gupta A,Sharma N,Bansal P,Goyal H.新冠肺炎表现为急性胰腺炎。胰腺病学2020;20(5):1026-7。网址://doi.org/10.1016/j.pan.2020.05.003。[3] Ashktorab H,Pizuorno A,Oskroch G,Alma Fierro N,Sherif ZA,Brim H.拉丁美洲的COVID-19:症状、发病率和胃肠道表现。胃肠病学2021;160(3):938-40。 https://doi.org/10.1053/j。gastro.2020.10.033网站。[4] 韩荣,黄丽,姜宏,董建,彭宏,张东. 2019冠状病毒病(COVID-19)肺炎早期临床和CT表现。 Am JRoentgenol 2020;215(2).[5] 孟X,邓Y,戴Z,孟Z.COVID-19和嗅觉丧失:基于最新知识的综述。美国耳鼻咽 喉 科 杂 志 2020;41 ( 5 ) : 102581 。 https://doi.org/10.1016/j 的 网 站 。amjoto.2020.102581。[6] ZhangR,Li J. 咳嗽和打喷嚏:它们在呼吸道病毒感染传播中的作用,包括SARS-CoV-2 。 AmJ Respir Crit Care Med 2020;202 ( 5 ) 。 网 址 : http ://doi.org/10.1164/rccm.202004-1263PP[7] Paraskevis D,Kostaki E-G,Magiorkinis G,Panayiotakopoulos G,SourvinosG,Tsiodras S.新型冠状病毒(2019- nCoV)的全基因组进化分析拒绝了由于最近的重组事件而出现的假设。《感染遗传进化》2020;79:104212。https://doi.org/10.1016/j的网站。2020.104212.[8] Zhou P,Yang X-L,Wang X-G,Hu B,Zhang L,Zhang W,Si H-R,Zhu Y,Li B,Huang C-L,Chen H-D,ChenJ,Luo Y,Guo H,Jiang R-D,Liu M-Q,Chen Y,Shen X-R,Wang X,Zheng X-S,Zhao K,Chen Q-J,Deng F,Liu L-L,Yan B,Zhan F-X,Wang Y-Y,肖国芳,石志玲。一场与可能源自蝙蝠的新型冠状病毒相关的肺炎疫情。Nature2020;579:270-3.[9] 栾军,金晓,陆勇,张玲。SARS-CoV-2刺突蛋白支持牛科动物ACE 2和蟋蟀科。Journal of Medical Virology 2020;92(9):1649-56.https://doi.org//jmv.25817.[10] 邱勇,赵永斌,王强,李建勇,周忠杰,廖昌华,葛晓宇。血管紧张素转换酶2(ACE2)作为血管紧张素受体的SARS-CoV-2.微生物感染2020;22(4-5):221-5。 https://doi.org/10.1016/j。micinf.2020.03.003网站。[11] 黄M-C,Creeen S-J-J,Ajami N-J,Petrosino J-F.冠状病毒重组的证据暗示nCoV-2019的穿山甲起源,bioRX iv. 2020. 网址:http://doi.org/10.1101/2020.02.07.939207[12] Lam T-T-Y,Jia N,Zhang Y-W,Shum M-H-H,Jiang J-F,Zhu H-C,Tong Y-G,Shi Y-X,Ni X-B,Liao Y-S,Li W-J,Jiang B-G,Wei W,Yuan T-T,ZhengK,Cui X-M,LiJ, Pei G-Q,Qiang X,Cheung W-Y-M,Li L-F,Sun F-F,QinS,Huang J-C,Leung G-M,Holmes E-C,Hu Y-L,Guan Yand Cao W-C.识别SARS-CoV-2相关马来穿山甲的冠状病毒Nature 2020;583(7815):282-5. 网址://doi.org/10.1038/s41586-020-2169-0。[13] Zhang T,Wu Q,Zhang Z. SARS-CoV-2可能起源于穿山甲,与COVID-19爆发有关。Curr Biol 2020;30(8):1578. https://doi.org/10.1016/j的网站。cub.2020.03.022网站。[14] 韩国智穿山甲携带SARS-CoV-2相关冠状病毒。微生物学趋势2020.https://doi.org/10.1016/j.tim.2020.04.001网站。[15] ShiJ, Wen Z,Zhong G,Yang H,Wang C,Huang B,Liu R,He X,ShuaiL,Sun Z,Zhao Y,Liu P,Liang L,Cui P,WangJ, Zhang X,Guan Y,TanW,Wu G,Chen H,Bu Z.雪貂、猫、狗和其他家养动物对SARS的易感性冠状病毒2. Science 2020;368(6494):1016-20. https://doi.org/10.1126/science.abb7015.[16] 国家生物技术信息中心。https://www.ncbi.nlm.nih.gov/labs/virus.[17] Cavnar W-B,Trenkle J-M.基于N-gram的文本分类。在:Proceedingsof1994年,第三届文献分析与信息检索年会,第161-175页,拉斯维加斯,内华达州.[18] 皮尔逊湾关于与空间点系最接近的直线和平面。菲尔·马格1901;2(11):559-72.https://doi.org/10.1080/14786440109462720网站。[19] 布雷曼湖随机森林MachLearn 2001;45(1):5-32.[20] Islam S-M-A,Heil B-J,Kearney Kearney C-M,Baker E-J. Protein classificationusing modified n-gram and skip-gram. Bioinformatics 2018;34(9):1481-7. 网址://doi. org/10.1093/bioinformatics/bt X 823。[21] 马索M人类免疫缺陷病毒1型耐药性的预测:通过n-gram方法表示靶序列突变模式。In:Proceeding of the International Conference on Bioinformatics andBiomedicine,Philippines,PA,USA; 4-7 Oct. 2012年。[22] 黎N-Q-K,亚普E-K-Y,纳加森达拉姆N,叶H-Y。通过深度学习和连续快速文本N-gram的组合解释DNA序列的隐藏信息
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功