基于高效微卫星发现的比较病毒结构研究与突变特性分析

90 浏览量更新于2024-01-06 收藏 549KB PDF 举报

医学信息学

基因组序列分析

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

i本文的最新情况见最后医学信息学解锁19（2020）100356开发一种超高效的微卫星发现器，以发现SARS-CoV-1和Covid-19之间的结构差异Mahmoud Naghibzadeha，b，*，Hossein Savaria，Abdorreza Savadi b，Nayyereh Saadati c，Elahe Mehrazinaa计算机工程系知识工程研究组，Ferdowsi University of Mashhad，伊朗b高性能计算实验室，计算机工程系，Ferdowsi University of Mashhad，伊朗c伊朗马什哈德，马什哈德医科大学，Ghaem医院，A B S T R A C T动机：最近，冠状病毒COVID-19的爆发迫使世界卫生组织宣布大流行状态。基因组序列是这种病毒的核心，它干扰了人类中对应病毒的正常活动。对其基因组的分析可能会为患者的正确治疗以及新药和疫苗的设计提供线索。微卫星是由短的基因组序列组成，这些序列在同一方向上连续重复多次。它们在其构建模块、重复序列的数量以及它们在基因组序列中的位置方面是高度可变的。这种突变特性是许多疾病的根源通常通过分析宿主基因组来诊断受害者可能患有的疾病在本研究中，重点是攻击者结果：本研究的重点是SARS和Covid-19的微卫星。发现并实现了一种准确高效的识别基因组序列中所有微卫星的计算机方法，并将其用于冠状病毒Covid-19和SARS 2003中所有微卫星的识别。微卫星发现基于称为K-Mer哈希索引的高效索引技术。该方法被称为快速微卫星发现（FMSD），用于SARS和Covid-19。报告了由所有微卫星组成的表。SARS和Covid-19之间有许多不同之处，但有一个突出的差异需要进一步研究。可用性： FMSD 可以在 www.example.com 上免费获得 https://gitlab.com/FUM_HPCLab/fmsd_project ，在 Linu x -Ubuntu系统上用 C 实现。软件相关联系人：hossein_savari@mail.um.ac.ir。1. 介绍新型冠状病毒疫情于2019年12月在中国武汉爆发（P. [1]），并迅速达到世界卫生组织宣布大流行状态的程度。虽然目前在武汉市已得到控制，但总体上在世界范围内仍有发生。了解这种病毒的结构并揭示其基因组的隐藏特性可能有助于设计有效的人类受害者治疗程序，并有助于生产疫苗以提供针对这种病毒的免疫力。目前正在评估其严重程度并更好地了解这种疾病[2]。找到新冠病毒的所有微卫星是分析病毒结构的一个方向。由于缺乏快速、准确和高效记忆的微卫星发现者，我们首先开发了这样一种工具，然后开始分析Covid-19基因组结构。因此，本研究遵循两个目标，发展一个通用的微观，卫星发现者这可以被使用为不同基因组和使用该工具分析SARS-CoV-1和Coronavirus- Covid-19的结构，并揭示它们的差异。最后的结果将有助于未来的药物和疫苗设计的研究。在这些方面，即使是很小的援助，也能对拯救生命和提高许多人的生活质量在基因组序列中，串联重复序列是在DNA（脱氧核糖核酸）、基因、基因组或其他基因组序列中连续重复多次的基序，并且顾名思义，所有重复序列中基序的方向是相同的。它们被分为三类，微型卫星，小型卫星和卫星。不同的研究人员和实践者不同意在哪里画出微卫星，小卫星和卫星之间的分隔线;然而，数字7经常出现作为微卫星核心序列的最长长度[3]。微卫星的核心子序列将被称为motif，从这里开始。微卫星、小卫星和卫星的另一个重要特征是相应motif的重复数量。再一次，没有明确的* 通讯作者。计算机工程系知识工程研究组， Ferdowsi University of Mashhad，Mashhad，伊朗电子邮件地址：naghibzadeh@um.ac.ir（M.Naghibzadeh）。https://doi.org/10.1016/j.imu.2020.100356接收日期：2020年4月20日;接收日期：2020年5月20日;接受日期：2020年5月2020年5月21日网上发售2352-9148/©2020的自行发表通过Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页：http://www.elsevier.com/locate/imuM. Naghibzadeh等人医学信息学解锁19（2020）1003562最小重复次数的下限。一个更一般的情况下，微型和小型卫星被称为可变数目的串联重复（VNTR），其中其他序列可能会出现在基序重复之间[4]。VNTR在人类基因组中非常常见，据估计，人类基因组的3%由VNTR组成[5]。本研究的重点是寻找具有固定串联重复序列数目的微卫星，以及在不同个体中重复序列数目不同的微卫星。两个微卫星重复序列的变异性，也就是微卫星重复序列的数目，重复多态性，是一个很好的候选人为一个人不同品种的冠状病毒？这必须在至少所有微卫星都被检测和报告之后进行调查。所提出的识别任何基因组序列中的微卫星以及新型冠状病毒的微卫星的方法受益于称为K-Mer哈希索引（KMHI）的哈希索引方法[8]。在这项研究中，一个新的改进KMHI，使其时间和空间效率，这是在下面的段落中简要讨论，并在解决方案的方法部分澄清的细节。这种新颖性不仅可用于寻找微卫星，本研究的主题，而且还可用于任何基因组序列中的所有其他类型的VNTR。通常，KMHI的每一行指向对应于该行的k聚体值出现在参考序列中的位置的链接列表。在处理完整个输入序列并开发出KMHI和所有链接列表之后，分别处理每个列表以找到可能的微卫星。这项研究的发现使得从而大大降低了空间需求，提高了小卫星发现的效率每一个潜在的微卫星的处理是尽快完成，在输入序列的处理期间检测，而不是将其后推到序列被完全扫描之后。详细信息在解决方案方法一节中描述。所提出的方法的特性和新颖性，被称为快速微卫星发现器（FMSD），用于发现给定基因，DNA，RNA或其他基因组序列（包括新型冠状病毒[9]和SARS）[10] 如下所示它发现所有具有核心序列的微卫星，即，图案，1、2、.和7个它使用一种高效的索引方法，不需要任何空间来存储k-mer值或它们在序列中的位置。它使用极低的主存储器空间，除了输入序列和输出结果外，没有辅助存储器。●它非常快。潜在的微卫星在发现时被处理，而不是在输入序列到达其末端时。因此，虽然开发的软件不是并行的，但将来很容易成为并行使用FMSD，对SARS和Covid-19基因组进行了计算分析，并识别和强调了差异。这两个基因组之间似乎存在重要差异，但它们的医学意义必须由遗传学家和健康专家进行研究。论文的其余部分分为五个部分和一个参考部分。第2节回顾了相关论文，特别是用于比较的论文。第3节是对正在解决的问题的简要说明。第4节描述了解决方案。第5节详细介绍了评估，报告了比较结果，并强调了SARS和冠状病毒Covid-19之间微卫星的结构差异作为案例研究。2. 背景冠状病毒感染增长非常迅速。在不到三个月的时间里，对研究的需求正在增长，其优先事项正在确定[11]。关于紧急药物发现，立即的努力集中在重新利用药物[12]。在这方面，病毒-宿主和人-人蛋白质-蛋白质相互作用组网络的研究据说是必不可少的[13];[12]。另一个方向是在新冠病毒基因组中发现已知的模式，这些模式是其他疾病的根源。据估计，人类基因组中有460万个微卫星[14]。许多这些微卫星的扩增已被用于许多目的，如疾病诊断或人类可观察到的特征分离。许多研究报告了不同疾病和某些微卫星之间的关联[15，16]。例如，微卫星中重复序列的不稳定性与许多类型的癌症和各种与神经系统变性有关的疾病即使是重复的多-其中一个基因中的态射，即，IL-1 ra显示与骨质疏松性骨折的可能性增加相关[18，19]。尽管如此，在给定的基因组或基因组序列中准确和有效地定位微卫星一直是并且仍然是一个重要的问题。寻找串联重复序列的研究有着悠久的历史，涵盖了具有不同限制和假设的各种问题。一般来说，目标是找到所有类型的串联重复[20]或串联重复序列类别的子集，如微卫星[17]，在不同个体中具有可变数量的重复序列或没有重复序列。从不同的角度来看，结果是精确的或不精确的，对于不精确的情况，它可以是统计的[21]，模糊的[22]，基于距离，如汉明或编辑距离[20]。据我们所知，目前还没有一个完整的分类的方法来寻找串联重复序列的文件，本研究的第一个目标是提出一种新的方法来寻找这些重复序列，而不是审查和分类现有的方法。因此，我们将仅限于为这一概念提供潮流背景的文献，并介绍在比较部分中使用的文献。这里开发的软件能够找到基因组序列的所有微卫星，无论它们的长度如何。本研究的主要目的是使用开发的系统识别新型冠状病毒和SARS的所有微卫星，并突出差异。将提供详细的比较Kmer-SSR是一个软件包，检测所有尺寸.这种方法的优点是它使用了回溯的思想，返回到检测到的序列的开始，并再次寻找重叠的串联重复序列。这样就提高了方法的精度。该算法是一个精确的，因此它既不是模糊的，也不是近似的。这也是这里开发的方法的属性，这使得它成为将我们的方法与[23]进行比较的好候选者Krait [24]专门设计用于检测精确的微卫星，类似于本文所做的。然而，Krait没有发现核心大小等于7的微卫星。为了获得其他SIX类型的微卫星，程序扫描源序列SIX次。它具有使用种子和扩展概念来检测相似重复的能力。为了检查核心序列的原子性，它搜索一长串可能的核心序列，这是一个耗时的过程。虽然我们注意到它不能检测到具有重叠核心的微卫星，但它是与所开发的方法这里.然而，对于敏感的情况，如Cov- id-19的基因组研究，这是一个缺陷。开发了一种称为mreps软件工具来检测所有的串联重复序列，包括微卫星，在DNA和整个基因组中。他们的说法它能够通过定义分辨率参数来识别模糊串联重复序列。它是通用的，因为它可以识别所有核心大小的串联重复序列。mreps的一个特点是它可以容忍重复副本之间的错误[20]。当然，一般性带来了缓慢、使用复杂和不准确。对于由短基因组组成的冠状病毒的情况，模糊和不精确是该方法的弱点。然而，在检索中包括future的原因似乎是为了减少时间要求。出于这个原因，决定在比较部分包括这个软件，以显示我们的方法的优越性，即使在时间方面��M. Naghibzadeh等人医学信息学解锁19（2020）1003563¼¼¼我们要回顾的最后一项工作是PERF [25]。它是基于预先准备一个重复的集合，并将输入序列的所有可能的连续性与这个集合进行比较，然后如果匹配发生，则执行进一步的处理。在该工具的默认选项中，检测到核心长度为1至6的所有微卫星。为了构建重复组，对于k，所有可能的k聚体组合， 1至6，生成，并且每一个通过k聚体的连续重复而扩展到12个字符。长度为12的移动窗口用输入序列的前12个字符初始化，并在重复集合中搜索。如果找到了，将进行进一步处理以找到所有重复;否则，将移动窗口向前推一个位置，并且过程继续。继续。这种方法的主要困难是在重复组中的搜索时间，特别是如果用户感兴趣的是较长核心尺寸的微型卫星例如，如果核心长度是7个核苷酸，则47行必须添加到重复设置中。另一个困难是该工具不能检测重复次数少的微卫星。例如，它将不能检测核心大小为1的微卫星，其中重复的数量小于12。可以更改默认值，但搜索时间会持续很长，可能会出现其他问题。3. 问题定义基因组序列作为输入给出。它由核苷酸A（腺嘌呤）、T（胸腺嘧啶）、G（鸟嘌呤）和C（胞嘧啶）组成。对于某些序列，如核糖核酸（RNA），T被U取代;然而，我们假设该序列由A、T、G和C组成。通过简单地将输入序列中的U替换为T，本文提出的方法将保持有效和适用。输入序列的长度可以与整个基因组一样长，也可以小到几个核苷酸。问题是找到相同核心序列的所有连续串联重复，即，相同的主题。微卫星的核心序列是被认为具有1、2、.或7个核苷酸的长度此外，我们假设核心序列是原子的。例如，ATAT不是原子的，因为它是由两个相同的AT组成的，因此它应该被报告为核心序列AT的微卫星，假设它通过了其他要求。使用开发的工具，将仔细调查冠状病毒COVID-19中微卫星的存在，并报告所有此类病例。这同样适用于SARS-CoV-1，并将具体说明差异。可能的解释的差异将被讨论，而更复杂的情况将留给未来的调查。4. 解决方案方法输入序列是基因组或基因组序列，其中微卫星类型的所有串联重复将被检测和报告。该方法首先从输入序列生成索引表。索引表被称为K-Mer Hash Index（KMHI）。为了生成KMHI，从输入序列的开头开始，第一个六个字符子序列，即，位置0到5中的字符，并使用每个字母A、C、G和T的两位代码将其转换为整数。字母的对应代码分别为00、01、10和11。例如，随后的ACCTGA将被转换为基数为2的整数000101111000，它等于十进制数376。解码这个代码将把我们带到表KMHI的第376行。请注意，第一行编号为零。该表有212 4096行。尽管要找到大小为1至7的所有微卫星，但仅产生一个KMHT，并且用于散列目的的单元子序列总是6。对4个单元等其他选项进行了研究，考虑到整体性能和灵活性，选择了6个单元。在下文中，将使用示例来描述检测实际微卫星的细节。子序列本身和代码都不存储在KMHI表.根据要解决的问题，不同的信息可能存储在KHMI表的行这个编码系统有两个其主要优点是不需要存储搜索关键字值的空间，并且可以忽略不计的解码时间要求。随着大数据生产和快速分析的要求，KHMI是一个很好的候选人被用于生物信息学的许多领域假设搜索关键字值的散列被解释为整数变量x，则其解码等效于转到KMHI（x），即，表KMHI的第x最简单的方法是将链接列表附加到KMHI的每一行，并且当输入被扫描时，将每个k-mer的位置存储在对应于该k-mer的链接列表中。在到达输入序列的末尾之后，然后分别处理每个链表，并且检测微卫星。在这种方法中，对于输入序列的每个字符，形成列表的节点，并且在每个节点中存储位置和指针。因此，存储需求迫使软件依赖于二级存储，这使得时间需求无法忍受。此外，处理链接是增加计算时间的另一个因素。在这项研究中，开发了一种新的想法，它删除了所有的链表，而是每个k-mer只包括三个值的KMHI表。围绕这个想法开发的软件系统被称为快速微卫星发现者（FMSD）。假设当扫描输入序列时，可以看到，结束字符T位于输入序列的位置410，即，该6-mer位于输入序列的位置405至410。该6聚体指向KMHI表的行号3035。假设相同的6-mer在4个位置后重复，即，从409到414这将指向KMHI的相同行号3035。关于这一行，我们可以猜测可能是一个微卫星，实际上是GTTC，正在形成，因为其中两个已经被观察到。此时，行3035将存储三个值，loc等于414，size等于4，count等于2。让我们假设相同的6-mer在位置413至418重复。因此，loc将变为418，size不会改变，因为它显示了该微卫星的核心大小，count将变为3。见图1 与针对具有长度为4的核心序列的微卫星所讨论的情况类似的情况适用于大小为1至6x的所有微卫星。对于7号，必须进行一个小的额外比较。很明显，大小必须是7，但哈希的单位是SIX个字符。为了解决这种情况，每次都必须对第七个字符执行额外的比较。在将散列的单位设为7和将KMHI表的大小减少75%之间有一个折衷方案。为该方法的细节参见算法1。为了能够遵循算法1，重要的是要知道每个变量的用途。变量序列是一个大小为n的数组，索引从0到n-1，它保存输入序列。表KMHI是最重要的变量，它是一个大小为212 4096行的结构数组，索引从0到4095，用于保存当前电位的位置、位置、核心大小、大小、重复次数、计数Fig. 1. 哈希表和KMHI表的结构。M. Naghibzadeh等人医学信息学解锁19（2020）1003564微卫星对应于表格的这一行。此表被认为是全局的，在进入算法之前，其所有值都被设置为零。在表的每一行中，在初始参考之后，总是假定正在检测到潜在的微卫星。如果下一个对该行的引用与前一个引用的距离不完全一样大，那么到这里为止，假定是一个微卫星，并调用微卫星验证例程MSValidation来进行验证，例如检查重复次数。否则，更新变量loc和countFMSD识别非原子串联重复序列，仅报告原子串联重复序列。例如，报告具有10次重复的核心序列TCTC的微卫星是不正确的，因为TCTC不是原子的。正确的微卫星应该是重复20次的TC。循环重复也被消除。例如，当报道具有20次重复的核心子序列TCG的微卫星时，遗传学家可以容易地解释为例如存在具有19（或20）次重复的核心序列CGT的微卫星，并且不需要大量增加报道的微卫星的数量。此外，如果微卫星的末端和下一个微卫星的开始具有一些共同的核苷酸，则FMSD能够正确地包括两个微卫星的重叠核苷酸。解释者的任务是决定哪一个更重要。该方法被证明是非常有效的。它能检测到微卫星，一切都在扫描输入序列的一次通过中完成，并且不需要预处理或后处理。它非常快，即使在最坏的情况下，它也比最快的最先进的方法快至少2.6倍。除了输入序列所需的内存外，它所需的内存可以忽略不计5. 评价冠状病毒与许多特性相关，其中一些特性如下所列。所有年龄段的人都有不同的易感性[26]。COVID-19的死亡率很高[27]。没有明显的性别差异[26]。人与人之间的传播是常态[26]。传染性高于SARS-2003 [27]。因此，它迫使世界各地的社交距离，许多地理区域正在经历封锁。所有这些直接和间接特性的共同之处在于其基因组。在下面的小节中，发现并报告了SARS- 2003和Covid-2019的所有微卫星。5.1. FMSD性能这里开发的软件可用于所有大小的所有基因组。准确无误。它发现了与最先进的软件包相比重复次数最少的微卫星。它是快速的，同时是一个顺序的软件。由于潜在的微卫星是表1当扫描输入时检测到，这里开发的方法可以容易地变得并行，以进一步改善其运行时间并利用计算机的所有核心。这也是内存效率。由于正确性和时间是这些算法最重要的目标，表1显示了不同软件对不同大小的基因组的时间要求。所有方法的时间都是使用Intel Xeon E5- 6695 v32.3GHz处理器和64 GB主内存模块测量的。显然，FMSD的时间要求远远小于其他算法。在某些情况下，它比最先进的方法快3600倍，在最坏的情况下，它比最先进的方法快至少2.6倍。这提供了很大的优势，因为大多数基因组序列非常长，并且先前的方法可能无法在可容忍的时间段内执行其任务。同样的讨论也适用于主存利用率;然而，由于其他方法没有报告其算法的内存利用率，并且源代码（而不是可执行代码）不可用，因此无法进行比较。这项研究的一个重要目标是找到 SARS 和Coronavirous-Covid-19的所有微卫星，并为遗传学家分析它们在药物发现和疫苗生产方面的差异提供所需的信息。这将在下一小节中完成。5.2. 新冠病毒和SARS冠状病毒将开发的软件FMSD应用于SARS-CoV-1（登录号AY278741.1）和新型冠状病毒-Covid-19（登录号NC_045512.2），本节报告了结果。显示了原子核长度小于或等于7的所有微卫星的结果。除了原子核长度1和2分别被设置为7和4之外，重复的最小数目被设置为3。表2列出了两种病毒中的所有微卫星在冠状病毒Covid-19中观察到多聚腺苷（PolyA）尾，而在SARS-CoV-1中没有。然而SARS-CoV-1中最长的腺嘌呤序列长度为8，位于基因组中的某个位置。此外，在这两个基因组中发现的原子简单串联重复序列的最大长度为 4 个核苷酸（ TGTT ），在 SARS-CoV-1 基因组中重复 3 次，在Coronavirus-Covid-19基因组中重复2次。这一事实以及在任一基因组中缺乏较长的微卫星表明了对病毒基因组中较长的简单串联重复序列在这两个基因组中发现的另一个微卫星是CAA（蛋白质水平的聚谷氨酸，PolyQ ）。研究表明， PolyQ参与了牛痘 X病毒的传播性，而smallpoX中缺乏此类基序导致该病毒的存活率降低[28]。值得一提的是，与SARS-CoV-1基因组相比，Covid-19基因组中的点突变可能会导致软件在两个基因组中发现两个不同的微卫星。例如，假设在片段的开始处从G到T的最近突变，片段TTGTGTGTGTA可以被读取为TG的4个重复或GT的5个重复。因此，有些差异可能并不像看起来那么重要自从新型冠状病毒最近从动物宿主转移到人类宿主以来，还没有适应新的环境;因此，它的基因组显示出一个快速的动态平衡。FMSD作为一种简单、快速的最先进的微卫星探测器在处理时间方面的性能。Kmer-SSRKraitaPerf姆雷普斯FMSD大肠埃希菌（E.coli）6.11s1s1.49s1.40s0.12sGCF_000005845.2（4 MB）Caenorhabditis elegans2米：9.64秒5s17.89s43.50s1.85sGCF_000002985.6（101.5 MB）黑腹果蝇3米：3.30秒7s25.64sB2.671sGCF_000001215.4（145.7M）热带爪蟾（Xenopus tropicalis）GCF_000004195.3（313.7 MB）GRCh38.p13GCF_000001405.39（3.3 GB）6米：25.30秒60米：27米：498秒15秒2分：35秒51.10s8米：58.89秒3米：8.99秒B5.49s57.58sa这个包找不到大小为7的核心子串的微卫星b由于某些未知的原因，该软件包无法正常完成某些序列的任务��M. Naghibzadeh等人医学信息学解锁19（2020）1003565¼表2SARS-CoV-1和新型冠状病毒-Covid-19基因组的微卫星。确认SARS-CoV-1（登录号AY278741.1）冠状病毒-Covid-19（登录号NC_045512.2）作者要感谢Hassan Shafiey博士在论文修订期间慷慨的遗传学评论。Shafiey博士获得了生物物理学博士学位，目前的研究兴趣是计算生物学和群体遗传学。附录A. 补充数据本文的补充数据可在 https ： //doi 网站上找到。org/10.1016/j.imu.2020.100356。引用[1] ZhouP，et al. 一场与可能源自蝙蝠的新型冠状病毒相关的肺炎疫情。Nature2020;579：270-3.[2] Wilson N，et al.使用死亡滞后时间计算的COVID-19病例死亡风险估计。急诊感染疾病2020;26（6）。[3] SA-SSR：A Suffi X Array-Based Algorithm for Exhaustive and EfficientSSRDiscovery in Large Genetic Sequences. Bioinformatics 2016;32（17）：2707-9.[4] Pourcel C等人，鲍曼不动杆菌中可变数目串联重复（VNTR）序列的鉴定和优化多位点VNTR分析分型方案的实验室间验证。临床微生物学杂志2011;49（2）：539[5] 放大图片作者：J. a下的重复历史估计串联重复序列随机模型 BMC Bioinf 2019;20（64）：1-11.[6] 新Ta-3A 1微卫星重复序列的全基因组分布及其在小麦和相关物种染色体鉴定中的应用。农业2019;9（60）：1[7] 帕森·WDNA年龄推断：从法医DNA指纹到法医学（Epi）基因组学：一个迷你审查。老年学2018;64（4）：326-32。[8] NingZ，CoX AJ，Mullikin JC.SSAHA：一种大型DNA数据库的快速搜索方法Genome Res2001;11（10）：1725[9] GenBabk GenBank;2019.[10] Rota PA等人，一种与严重急性呼吸道感染tandem repeat finder使生物学家能够跟踪Covid-19基因组中重复元件的分布和动态，这是观察生物适应动态的绝佳机会。例如，编码谷氨酰胺的CAG重复序列显示不稳定[29]。6. 总结2019冠状病毒病于2019年底爆发，并在宣布进入大流行状态后不久。它的作用不同于2003年出现的SARS-CoV-1。在同一个家庭中，重要的是探索基因组结构差异，以寻找COVID-19的具体表现。有希望在短期内帮助药物重新利用以缓解症状，并在短期内帮助疫苗设计。长远来看为此，首先开发了一种称为快速微型卫星发现器的高时空效率软件。对其性能进行了评价，并报告其优于现有系统。使FMSD适用的一个很大的新颖性是分析任何长度的基因组序列，无论是短的、长的还是非常长的。使用FMSD，发现并报告了SARS-CoV-1和Covid-19的所有微卫星。有很多不同之处。虽然提供了一些差异的解释，但需要进一步研究治疗和药物及疫苗设计的可能线索。请注意，据报道串联重复序列是许多疾病的原因。还提供了本项目中使用的其他软件的链接在此外，以下链接提供了SARS和Covid 19基因组的链接：https://github.com/rkmlab/perfhttps://github.com/ridgelab/Kmer-SSRhttps://github.com/lmdu/kraithttp://mreps.univ-mlv.fr/howto.htmlwww.example.comhttps://www.ncbi.nlm.nih.gov/nuccore/AY2.78741.1?https://www.ncbi.nlm.nih.gov/nuccore/NC_045512.2?快报告。呼吸道综合征Science2003;300（5624）：1394-9.[1]CowlingBJ，Leung GM.公共卫生的流行病学研究重点控制正在进行的全球新型冠状病毒（2019-nCoV）爆发标题'。EuroSurveill2020;25（6）.[2]Zhou Y，et al.基于网络的新型冠状病毒药物再利用2019-nCoV/SARS-CoV-2. CellDiscov2020;6（14）.[3]MirAbolfazl，Naghibzadeh Mahmoud，Saadati Nayyereh.索引：增量深度扩展方法用于蛋白质-蛋白质相互作用网络比对。生物系统2017;162：24[4]Srivastava S，et al.，Patterns of microsatellite distribution acrosseukaryoticgenomes. BMC Genom2019;20（1）.[5]KelkarYogeshwar D，Eckert Kristin A，Chiaromonte Francesca，Makova卡特琳娜湾生与死的问题：微卫星如何在人类基因组中出现和消失。GenomeRes2011;21（12）：2038-48.[6]刘谦，等。质疑通过长读序检测疾病。Genome Med2017;9（65）.[7]Kovtun IV，McMurray CT.三核苷酸重复序列在体内的不稳定性特征。CellRes2008;18：198-213.[8]作者：J. M，J. M，J.骨质疏松症的遗传流行病学VDR基因附近的微卫星标记。 Int J Mol Epidemiol Genet 2013;4（2）：101-8.[9]SaadatiN，Rajabian R.双膦酸盐预防糖尿病的疗效观察糖皮质激素引起的骨质疏松症。伊朗红新月会医学杂志2008;10（1）：8-11。[10] 作者：J. R，J. G.mreps：高效灵活的串联检测重复DNA 核酸研究2003;31（13）：3672-8.[11] 杨伟杰，王伟杰，王伟杰.一种近似串联重复序列的算法计算生物学杂志2001;8（1）：1[12] Genovese LM，et al.，A census of tandemly repeated polymorphic loci ingenicregions through the comparative integration of human genome assemblies.FrontGenet 2018;9（155）.[13] Pickett BD，Miller JB，Ridge PG. Kmer-SSR：a fast and exhaustive SSRsearchalgorithm.生物信息学2017;33（24）：3922-8。[14] Krait：an ultrafast tool for genome-wide survey of microsatellitesand引物设计Bioinformatics2018;34（4）：681-3.[15] Avvaru AK，Sowpati DT，Mishra RK. PERF：一种从大DNA序列中超快速有效识别微卫星的穷举算法。 Bioinformatics 2018;34（6）：943-8.[16] 董毅，等.中国2019年冠状病毒病2143例儿科患者的流行病学特征。儿科2020年。[17] 吴尊友，McGoogan Jennifer M. 中国2019年冠状病毒病（COVID-19）爆发的特点和重要教训。2020年美国医学会杂志。[18] Schein Catherine H.病毒中的多聚谷氨酰胺重复序列。Mol Neurobiol 2019;56（5）：3664-75。[19] 佩鲁茨足球俱乐部谷氨酰胺重复序列和神经退行性疾病：分子方面。《生物化学趋势》1999;24（2）：58M.S.核心起于重复次数M.S.核心起于重复次数1TTC6253TTC62632GAA30813GAA305533GAA31863GAA307334TGG33983AAG318835CA49324GAT320536TG55535CTT473637ATG112963TC781358TG114744不1107489TGC115623ATG11366310AC130924ATC11910311TGA138253AC13162412CTT146863TGA13895313TGTT191083CTT14756314TG204174GT20486515TTA209643TTC22320316猫211833GA22954417ATT218333AGT23088318一225168TGT25642319不225687AAT25757320GA228444CGA26191321ACA242513GTG28556322CA257144TGC28934323CGA260633CAA28987424TAT263574CTG29021325GTG284053AAG29389326CAA288364一298703427CTG288703更新医学信息学2020年第20期第页DOI：https://doi.org/10.1016/j.imu.2020.100435医学信息学解锁20（2020）100435关于以前发表的文章中缺少竞争利益声明的勘误表由于出版商的错误，在先前出版的《解锁医学信息学》中出现的以下文献的出版版本中未包括声明/利益冲突声明。作者提供的适当声明/利益冲突声明如下所示。1. 视网膜血管几何变化与糖尿病黄斑水肿发生率和进展之间的关系（ Informatics in Medicine Unlocked; 2019; 2016 C; 文章编号：100，248）https：doi.org/10.1016/j.imu.2019.100248竞争利益声明：作者没有利益需要声明。2. 一种机器学习算法，以改善以患者为中心的儿科心肺复苏（ Informatics in Medicine Unlocked; 2020; 2019 C; 文章编号：100，339）https://doi.org/10.1016/j。imu.2020.100339利益声明：作者没有利益需要声明。3. 使用模糊认知地图技术诊断风湿性肌肉骨骼疾病的决策支持系统（Informatics in Medi- cine Unlocked; 2019; 2018 C;文章编号：100，279）https：//doi. org/10.1016/j.imu.2019.100279利益声明：作者没有利益需要声明。4. 基于通道二进制模式的运动想象任务的全局-局部空间信息融合（Informatics in Medicine Unlocked; 2020; 2020 C;文章编号：100，352）https://doi.org/10.1016/j.imu。2020.100352年利益声明：作者没有利益需要声明。5. 使用逻辑回归对恶性和良性组织进行分类（Informatics in MedicineUnlocked;2019;2016C; 文章编号： 100 ， 189 ）https://doi.org/10.1016/j.imu.2019.100189利益声明：作者没有利益需要声明。6. 关于生物学中基于现象学的半物理模型的参数可解释性（ Informatics in Medicine Unlocked; 2019; 2015 C; 文章编号：100 ， 158 ） https://doi.org/10.1016/j.imu 。 2019.02.002-2019.02.001-2019.02.002-2019.02.002.02.02.02.02.02.02.02.02.02.02.02.02.02.02.02.02.02.02.02.02.02.02.02.02.02.02.02.02.02.02.02.02.02.02.02.0利益声明：作者没有利益需要声明。7. 基于多级分类器的阿尔茨海默病预测和检索方法https://doi.org/10.1016/j.imu.2018.12.003利益声明：作者没有利益需要声明。8. 一种新的基于体细胞癌症基因的生物医学文档特征排名和聚类模型（ Informatics in Medicine Unlocked; 2019; 2016 C; 文章编号：100，188）https://doi.org/10.1016/j。imu.2019.100188利益声明：作者没有利益需要声明。9. 开发超高效微卫星发现器以发现SARS-CoV-1和Covid-19之间的结构差异（Informatics in Medicine Unlocked; 2020 vol 19 C;文章编号：100，356）https：doi.org/10.1016/j.imu.2020.100356利益声明：作者没有利益需要声明。10. 使用准静态肺P-V数据对急性呼吸窘迫综合征患者进行针对患者的机械通气优化原文 DOI ： https://doi.org/10.1016/j.imu.2020.100352 ， https://doi.org/10.1016/j.imu.2020.100356 ， https://doi.org/10.1016/j.imu.2019 。 100248 ，https://doi.org/10.1016

下载后可阅读完整内容，剩余1页未读，立即下载