SimPrily：基因组模拟的Python框架

188 浏览量更新于2024-01-27 收藏 896KB PDF 举报

Python框架

群体遗传学

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

SoftwareX 7（2018）335原始软件出版物SimPrily：简化高通量基因组模拟的Python框架[医]阿里拉湖放大图片作者：Gladsteina，Consuelo D.Quinto-Cortésb，Julian L.皮斯托瑞斯c，大卫克里斯蒂d，放大图片作者：John L.乔伊斯a生态学和进化生物学系，亚利桑那大学，图森，AZ，85721，美国b国家生物多样性基因组学实验室（LANGEBIO），CINVESTAV，瓜纳华托，36821，墨西哥cCyVerse，BIO5研究所，亚利桑那大学，图森，亚利桑那州，85721，美国d美国亚利桑那州图森市亚利桑那大学计算机科学系，邮编：85721美国亚利桑那大学应用数学研究生跨学科课程，图森，亚利桑那州，85721ar t i cl e i nf o文章历史记录：接收24六月2018收到修订版2018年9月10日保留字：Genomics聚结模拟高吞吐量计算a b st ra ct基因组模拟是群体遗传学中用于推断人口统计历史、测试选择区域以及创建数据集以验证软件的重要技术。然而，运行数千个模拟和操纵大型位点可能会带来计算挑战。我们提出了SimPrily，一个Python工具优化的高吞吐量计算（HTC），这有利于模拟整个染色体。SimPrily可以使用参数的先验分布来运行模拟，将单核苷酸多态性阵列确定偏差并入模拟模型中，并计算各种基因组汇总统计量。SimPrily的高吞吐量工作流程通过开放科学网格和CyVerse发现环境利用免费的计算资源，使研究人员能够运行数千或数百万个大型轨迹模拟，而只需很少或没有先前的命令行知识。版权所有©2018作者.由爱思唯尔公司出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）中找到。代码元数据当前代码版本v1.0.1用于此代码版本的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX_2018_97法律代码许可证MIT使用Git的代码版本控制系统软件代码语言，工具和服务使用Python，MaCS，GERMLINE，Pegasus，Docker，Singularity。编译要求、操作环境依赖性Linux或Docker或Singularity如果可用，链接到开发人员文档/手册http://simprily.readthedocs.io/en/latest/develop.html问题支持电子邮件agladstein@email.arizona.edu1. 动机和意义遗传数据的计算机模拟是进化遗传学和种群遗传学研究中的一项重要技术。给定一个进化模型（包括突变率、重组率、群体发散次数、有效群体大小等参数），沿着DNA（基因座）的长度添加突变，产生祖先和突变的序列。*通讯作者。电子邮件地址：agladstein@email.arizona.edu（A.L. Gladstein）。https://doi.org/10.1016/j.softx.2018.09.003在一个样本的个人网站这些类型的遗传模拟通常用于推断人口统计学历史，识别选择下的基因组区域，以及测试群体遗传学方法[1]。群体遗传学模拟的一个常见应用是近似贝叶斯计算（ABC）[1]。ABC需要大约106次模拟来选择最佳模型并推断参数值[1]。此外，当真实数据不足或真实值未知时，大型模拟数据集可用于训练群体遗传学的机器学习算法[2]。在个人计算机或小型服务器上并行运行许多模拟是棘手的机构集群可能不适合2352-7110/©2018作者。由爱思唯尔公司出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表SoftwareX期刊主页：www.elsevier.com/locate/softx336A.L. Gladstein等人/SoftwareX 7（2018）335由于集群的大小、作业限制或调度能力，运行数百万次模拟。研究人员可以使用外部计算资源，例如由公司托管的云然而，在这些环境中运行并行仿真可能很困难，或者由于成本或对专业计算知识的需求而不切实际。存储数百万个大轨迹模拟所需的内存和磁盘空间对于资源或数据管理技能有限的研究人员来说也是令人望而却步的。一些方法要求模拟具有关于参数的先验（例如，ABC），这可能很难编码。一些模拟软件要求按时间顺序对模型参数进行编码，例如MaCS [3]和msprime [4]。然而，给定模型的时间顺序可以基于随机选择的参数值而改变，并且需要手动重新排序群体基因组学推断的模拟除了计算限制之外还具有科学和统计考虑虽然基因组序列数据已经变得更加普遍，但许多研究使用更便宜的阵列，这些阵列包含在来自少数选定人群的小样本个体中发现的单核苷酸多态性（SNP），导致确定偏倚[5]。确定偏倚降低了SNP阵列上未代表群体的遗传多样性，可能导致不准确的结果[6]。此外，许多SNP阵列没有关于用于发现SNP的方案的信息[7]。为了纠正这一点，当使用SNP阵列数据时，SNP阵列确定方案应包括在模型中[8]。虽然许多研究已经将SNP阵列确定方案纳入其模拟中，但它们要么不提供可用于进一步研究的通用代码[8- 10 ]，要么它们要求确切的SNP阵列确定方案是已知的没有发布的模拟器或包装器可以很容易地使用时，确定方案是不确定的。有许多基于人口统计学历史来模拟DNA的程序[11]。有可以模拟染色体大小基因座的程序[4，7]，用户友好的包装器[12，13]，以及用于ABC的程序，其允许先验和计算总和统计[14，15]。然而，目前还没有解决所有上述问题的方案（补充表1）。在这里，我们介绍了SimPrily，这是一个围绕凝聚模拟器MaCS[3]的Python包装器，针对高通量计算（HTC）进行了优化，它使用具有先验的确定方案模拟整个染色体或SNP阵列数据，并使用低内存和最小文件输出计算统计数据。 SimPrily的预期用户友好性并不比MaCS [3]更好，用于使用恒定参数值进行单一聚结模拟。相反，SimPrily的目标是熟悉近似聚结模拟并需要SimPrily提供的额外功能和/或需要扩展到高通量模拟的研究人员。SimPrily是令人愉快的并行，使研究人员能够轻松地运行数百万个全染色体模拟，并在开放科学网格（OSG）上免费使用高通量工作流程[16]。对于喜欢图形用户界面SimPrily也可在CyVerse Discovery环境（DE）[17]上获得。最后，用户可以在自己的集群/云上使用SimPrily，并提供Singularity容器[18]。SimPrily的测试版用于即将进行的工作，使用ABC推断人类人口统计历史，模拟超过100万次全基因组[19]SimPrily将成为需要使用先验进行数百万次大基因座模拟的群体遗传学家的有用工具。2. 软件描述SimPrily的结构图如图所示。1.一、所有代码都可以在GitHub（https://github.com/agladstein/SimPrily）上找到。用户和开发人员的文档可以在simprily.readthedocs.io/en/latest/index.html上找到。此外，我们还提供了一个表格，帮助潜在用户评估SimPrily是否是解决其问题的正确工具（https://simprily.readthedocs.io/en/latest/usecase.html）。2.1. 模型规格SimPrily从两个纯文本配置输入文件中读取参数值和/或先验和模型拓扑。基于此输入，SimPrily 创建模拟命令，确保使用模块processIn-put.py的历史事件的正确顺序。SimPrily然后运行聚结模拟器MaCS [3]，仿真包中的子过程。SimPrily仅限于MaCS可以模拟的中性人口模型-包括发散、混合、迁移以及瞬时和指数型人口规模变化。2.2. 数据存储SimPrily通过直接流式传输到内存高效的Python位数组对象，绕过了将MaCS基因型输出写入磁盘的过程（图2）。①的人。包括基因型位数组对象、样本大小、群体ID以及群体是否用于SNP发现的模拟信息存储在每个模拟群体的seqInfo类SimPrily目前不允许打印原始模拟序列数据。2.3. 伪阵列的确定方案SimPrily包括模拟SNP数据的确定方案的选项，该方案使用确定包执行。使用Quinto-Cortés等人（2018）开发的方法模拟SNP发现，该方法基于SNP阵列模板、发现群体和次要等位基因频率截止值。可以获得PLINK格式的原始确定的SNP阵列数据。2.4. 汇总统计量SimPrily使用软件包summary_statistics计算存储在内存中的模拟基因型的群体遗传统计。目前，SimPrily在模拟序列或SNP阵列数据上计算13种不同的基于等位基因频率的统计数据，并包括基于使用GERMLINE [20]在具有确定模型的模拟SNP阵列数据上发现的通过血统相同（IBD）的片段的统计数据选项SimPrily能够计算任何倍性物种的基于等位基因频谱的统计数据，但PLINK文件输出和IBD统计数据仅限于二倍体生物。SimPrily没有限制，因为它可以很容易地更新以包括其他感兴趣的汇总统计信息。我们还包括一个配套的Python脚本来计算真实数据的相同统计数据。2.5. 基因组数据类型作为聚结模拟器MaCS周围的包装物[3]，Sim-Prily可以模拟具有重组的大基因座中的双等位基因分离位点（例如，全染色体）。SimPrily还可以使用伪数组选项和提供的物理位置列表（例如，SNP阵列、外显子组序列或RAD-seq数据）。A.L. Gladstein等人/SoftwareX 7（2018）335337图 1. 一、 S i m P r i l y 的结构图。 A. SimPrily 包含主 Python 脚本 simprily.py 、模块 processInput.py 和四个包： simulation 、 allele_generator 、 ascertainment 、summary_statistics。一次运行将生成一个包含参数值和计算的汇总统计信息的文件。B.基因型数据结构图。一个种群的所有个体的基因型存储在一个位数组对象中。位数组对象按第一个分离位点的群体中所有个体的基因型排序，然后是第二个分离位点的所有个体，依此类推。模拟分离位点乘以单倍体个体数。每个种群都有自己的bitarray对象。椭圆表示文件，矩形表示进程。黄色椭圆是输入文件，紫色椭圆是输出文件。2.6. 再现性SimPrily 的目标是可复制和可访问。该环境使用Docker/Singularity容器进行标准化[18，21]。单元测试和静态种子选项支持测试。SimPrily包括可选级别的调试语句，以帮助用户验证其模拟并识别错误。2.7. 高通量工作流程虽然每个模拟都在单个CPU上运行，但我们为开放科学网格（OSG）[ 16 ]提供了易于使用的高吞吐量Pegasus [22]工作流程（图16）。2）的情况。通过一个命令，工作流将指定数量的作业分配给全国100多台超级计算机的资源[16]，并处理所有数据处理（图2）。Pegasus利用分布式计算软件HTCondor，并使用Python API自动生成必要的有向无环图（DAG）文件[22]。如果使用工作流，则返回来自所有模拟的一个结果文件，然后可以将其用作运行ABC或其他分析的输入因此，用户不需要高吞吐量计算的经验来运行HTCSimPrily作业。通过CyVerse DE可以运行中等数量的仿真（最多5000个），模拟可以在OSG上运行。OSG和DE都是免费的学者。在文档中，我们还建议用户如何在其他系统（例如PBS）上创建自己的高吞吐量工作流。3. 标杆我们用一个简单的和一个复杂的演示图形模型对SimPrily进行了基准测试（补充图）。4）. 输入文件可以在SimPrily GitHub存储库和CyVerse数据存储中直接运行SimPrily而不是MaCS的计算开销最小内存使用由分离站点的数量决定，运行时间由合并时间驱动（图10）。 3）。每天大约有10，000到100，000个CPU小时可用于Pegasus工作流的OSG资源（补充图10）5）。4. 说明性实例我们通过模拟两个人口统计学模型来证明SimPrily的实用性：三个人类HapMap群体（图1）。 4）和5个芜菁居群。将结果与模拟汇总统计量与实际数据进行比较我们基于先前的结果[23，24]的先验用于这些模拟的输入文件在GitHub存储库中，观察到的数据包含在CyVerse数据存储中。对于HapMap模型，12个观察到的统计量中有11个在模拟统计量的范围内，4个观察到的汇总统计量在模拟统计量平均值的一个标准差内（补充图1）。6）。对于B。 rapa模型中，35个观察到的统计量中有9个在模拟统计量的范围内，13个真实汇总统计量在模拟统计量平均值的一个标准差内（补充图7b、8、9）。在实践中，在运行ABC等进一步分析之前，应调整模型的先验和拓扑，直到模拟产生的汇总统计量与观察到的汇总统计量重叠。一旦用户对模拟汇总统计量的准确性感到满意，他们就可以扩展到后续分析所需的模拟数量5. 影响SimPrily可用于模拟全染色体或SNP阵列数据来测试软件，用ABC推断人口统计学历史338A.L. Gladstein等人/SoftwareX 7（2018）335图二、 Pegasus [22] OSG高通量工作流程图[16]。1.一、Pegasus工作流在OSG Connect提交主机上执行，带有SimPrily配置文件。2. Pegasus将作业分发到OSG计算节点。3.SimPrily在每个计算节点上的Singularity容器[18]中运行。4.模拟的结果不断组合。5.一个包含所有模拟的参数值和汇总统计数据的文件将返回到提交主机供用户访问。直到完成所需数量的模拟，并将一个包含所有模拟的参数值和汇总统计信息的文件返回到提交主机以供用户访问。图三. SimPrily在简单测试模型（模型1）、复杂测试模型（模型2）和简单人类HapMap人口统计模型中的性能。A. SimPrily每个模拟的内存使用情况。B. SimPrily每次模拟的总CPU时间。使用模型2观察当前聚结模拟器MaCS [3]的实际运行时间限制，同时模拟超过252个二倍体个体的多个样品的300 Mb基因座。在推断选定区域时用作空模型，或为机器学习创建训练和测试数据集。我们使用测试版SimPrily来推断最近的人口统计历史犹太人的后裔[19]。SimPrily允许我们执行ABC所需的数百万个全染色体模拟。虽然德系犹太人有一个复杂的人口历史与混合事件和多个人口规模的变化，他们有一个广泛的书面历史，使知情的先验和适当的初始模型的历史。然而，其他人群可能有着复杂的人口统计学历史，但没有广泛的书面历史。在这些生物体中，确定开始模拟的模型和先验将是困难的在这些情况下，SimPrily使用户能够快速运行模拟，将摘要统计数据与实际数据进行比较，并改进模型，直到它们准确地表示该数据。例如，我们希望进一步阐明B. rapa，其具有未解决的星形系统发育[24]，使用ABC和SimPrily进行高通量全染色体模拟。到目前为止，SimPrily被用于A.L. Gladstein等人/SoftwareX 7（2018）335339见图4。A.约鲁巴人（YRI）、汉族人（CHB）和欧洲人（CEU）的人口模型。我们模拟了整个染色体1。作为观察到的数据，我们使用了来自相同三个种群的10个个体的1号染色体序列数据[25]。根据观察数据计算汇总统计量，以与SimPrily模拟进行比较B. HapMap模型5000次模拟的汇总统计量的主成分分析模拟数据质量可以通过比较观察数据（黑色“X”）和模拟数据（灰色点）进行视觉评估如果观测数据位于模拟数据点的中心附近，则用户提供的模型产生更好的模拟数据几个群体遗传学研究小组进行大规模的SNP阵列数据的模拟与确认。群体遗传学中的机器学习越来越受欢迎[26在群体遗传学研究中，通常没有足够的样本来训练模型，或者真实值是未知的（如选择和人口统计推断）。在这些情况下，基因组模拟可以用于训练和测试模型[2]。SimPrily可用于生成机器学习的汇总统计数据或模拟SNP阵列的基因型文件，以直接用于机器学习。在开发SimPrily之前，使用SNP确定方案的研究人员需要为每个新的遗传模型重写自定义Python代码，以使用先验知识运行染色体大小编写自定义代码非常耗时，而且容易出错。使用SimPrily，只需编写新的参数和模型配置文件此外，提供的Pegasus工作流程意味着用户不需要创建自己的高通量工作流程，这是大多数群体遗传学家最初不适应的任务这使研究人员能够将更多的时间花在形成假设和分析结果上，而不是编写、部署和调试代码。6. 结论我们已经创建了SimPrily：一个Python工具，根据人口统计模型简化了基因组数据的模拟。它使研究人员能够有效地进行和处理大规模的结合基因组模拟，并且几乎没有命令行知识。大量的独立模拟可以从相同的配置文件与 CyVerse Discovery Ensemination 或Open Science Grid运行。所得到的SimPrily输出文件可以很容易地与独立的下游ABC分析工具一起使用[32SimPrily通过在许多计算资源上标准化运行环境来提供计算再现性。确认我们要感谢Mats Rynge，感谢他在设置Pegasus工作流程并在开放科学网格上运行它方面提供的宝贵帮助。我们感谢CyVerse（NSF DBI-0735191和DBI-1265383）的外部合作支持计划。Pegasus由美国NSF根据OAC SI 2-SSI计划资助，资助编号1664162。这项研究使用了由NSF奖1148698和美国能源部科学办公室支持的开放科学网格提供的资源利益申报一个也没有。附录A. 补充数据与本文相关的补充材料可以在https://doi.org/10.1016/j.softx.2018.09.003上找到。引用[1]Hoban S，Bertorelle G，Gaggiotti OE.计算机模拟：流行和进化遗传学工具。Nat Rev Genet 2012;13（2）：110-22. 网址：//dx.doi.org/10.1038/nrg3130，URLhttp://www.ncbi.nlm.nih.gov/pubmed/22230817。[2]Schrider DR，Kern AD.用于群体遗传学的监督机器学习：一种新的范式。TIG 2018;34 （ 4 ）： 301-12 。 http://dx.doi.org/10.1016/j.tig.2017 的网站。12.005，URLhttp://dx.doi.org/10.1016/j.tig.2017.12.005。[3]Chen G，Marjoram P，Wall J. DNA序列数据的快速灵活模拟。Genome Res2009;136-42.http://dx.doi.org/10.1101/gr.083634.108.1，URLhttps://genome.cshlp.org/content/19/1/136.short。[4]放大图片作者：J.适用于大样本量的高效聚结模拟和谱系分析。PLoS ComputBiol 2016;12（5）：1https://doi.org/10.1371/journal.pcbi.1004842[5]Novembre J，Ramachandran S.在测序时代的尖端对人类人口结构的看法。Annu Rev Genom Genet 2010. dx.doi.org/10.1146/annurev-genom-090810-183123，URL http://www.ncbi。nlm.nih.gov/pubmed/21801023网站。[6]Clark AG，Hubisz MJ，Bustamante CD，Williamson SH，Nielsen R.人类全基因组多态性研究中的确定性偏倚。Genome Res 2005;15（11）：1496-502.http://dx.doi.org/10.1101/gr.4107905，URLgenome.cshlp.org/content/15/11/1496.short。[7][10]杨文辉，杨文辉.来自基因组和SNP数据的稳健的人口统计学推断。PLoSGenet2013;9（10）.e1003905，https://doi.org/10.1371/journal.pgen.1003905。网址http://dx.plos。org/10.1371/journal.pgen.1003905。[8]Quinto-Cortés CD，Woerner AE，Watkins JC，Hammer MF.人口统计学推断中的近似贝叶斯计算模型 SNP 分析 . Sci Rep 2018;8 （ 1 ）： 10209 。http://dx.doi.org/10.1038/s41598-018-28539-y，URLhttps://doi.org/10.1038/s41598-018-28539-y。340A.L. Gladstein等人/SoftwareX 7（2018）335[9]Wollstein A，Lao O，Becker C，Brauer S，Trent RJ，Nürnberg P，et al.Demographic history of Oceania inferred from genome-wide data. Curr Biol2010;20 （ 22 ）： 1983-92.http://dx.doi.org/10.1016/j.cub.2010.10.040 ，URLhttp://www.ncbi.nlm.nih.gov/pubmed/21074440。[10]Clemente F，Gautier M，Vitalis R.从SNP数据推断性别特异性人口统计学史。PLoS Genet 2018;14（1）：1https://doi.org/10.1371/[11]Peng B，Chen HS， Mechanic LE ，Racine B，Clarke J，Clarke L ，et al.Genetic simulation resources：A website for the registration and discoveryofgeneticdatasimulators.Bioinformatics2013;29 （ 8 ）： 1101https://www.ncbi。nlm.nih.gov/pmc/articles/PMC3624809/网站。[12]Staab PR ， Metzler D.Coala ：一个用于合并模拟的 R 框架 Bioinformatics2016;32（12）：1903https://doi.org/10.1093/bioinformatics/[13]Parobek CM，Archer FI，DePrenger-Levin ME，Hoban SM，Liggins L，Strand AE.Skelesim：一个可扩展的，通用的框架，用于群体遗传模拟。MolEcol Resour 2017;17（1）：101-9https://doi.org/10.1111/[14]Sandoval-Castellanos E，Palkopoulou E，Dalén L.回到BaySICS：一个用户友好的程序，用于从聚结模拟中进行贝叶斯统计推断。PLoS ONE 2014;9（5）.网址https://doi.org/10.1371/journal.pone。0098011。[15]Cornuet JM，Pudlo P，Veyssier J，Dehne-Garcia A，Gautier M，LebloisR ， et al. DIYABC v2.0 ： A software to make approximate Bayesiancomputation inferencing about population history using single nucleotidepolymorphism ， DNA sequence and microsatellite data. Bioinformatics2014;30（8）：1187https://doi.org/10.1093/bioinformatics/btt763[16]Pordes R，Petravick D，Kramer B，Olson D，Livny M，Roy A，et al.开放科学网格.JPhysConfSer2007;78：012057，URLhttps://doi.org/10.1088/1742-6596/78/1/012057。[17]商家N、里昂E，戈夫S，沃恩M、洁具D，米克洛斯D，etal.的iplant协作：网络基础设施为使生命科学的数据发现。PLoS Biol 2016;14（1）：1 doi.org/10.1371/journal.pbio.1002342网址https：//doi.org/10.1371/journal.pbio.1002342网站。[18]Kurtzer GM，Sochat V，Bauer MW.Singularity：计算移动性的科学容器。PLOS One 2017;12 （ 5 ）： 1https://doi.org/10.1371/journal 。 pone.0177459.网址https://doi.org/10.1371/journal.pone.0177459。[19]Gladstein AL，Hammer MF.亚结构人口增长在德系犹太人推断与近似贝叶斯计算。2018.提交出版。[20]Gusev A，Lowe JK，Stopolitan M，Daly MJ，Altshirt D，Breslow JL，et al.Whole population，genome-wide mapping of hidden relatedness. GenomeRes 2009;19 （ 2 ）： 318-26. http://dx.doi.org/10.1101/gr.081398.108 ，网址https：//www.ncbi.nlm.nih.gov/pmc/articles/PMC2652213/网站。[21]默克尔·D Docker：轻量级Linux 容器，用于一致的开发和部署。Linux J.2014;2014 （ 239 ） . 网址 https://www.linuxjournal 。 com/content/docker-lightweight-linuxcontainers-consistent-development-and-deployment.[22][10] Deelman E，Vahi K，Juve G，Rynge M，Callaghan S，Maechling PJ，等 .Pegasus ：科学自动化的工作流管理系统 Future Gener Comput Syst2015;46：17https://www.sciencedirect.com/science/article/pii/[23]Gutenkunst RN，Hernandez RD，Williamson SH，Bustamante CD.从多维SNP频率数据推断PLoS Genet 2009;5（10）. e1000695，https://doi.org/10。1371/journal.pgen.1000695。URL.[24][10] Qi X，An H，Ragsdale AP，Hall TE，Gutenkunst RN，Chris Pires J，et al.驯化事件的基因组推断得到了芜菁书面记录的证实。Mol Ecol 2017;26（13）：3373https://doi.org/10.1111/[25] 千人基因组计划联盟人类遗传变异的全球参考。 Nature 2015;526（7571）：68 https://www.nature。com/articles/nature15393.[26]Sheehan S， Song YS.用于群体遗传推断的深度学习。 PLoS Comput Biol2016;12（3）：1https://doi.org/10.1371/journal.pcbi.1004845网址https://doi.org/10.1371/journal.pcbi.1004845。[27]Schrider DR，Kern AD. S/HIC：使用机器学习对软扫描和硬扫描进行鲁棒识别。PLoSGenet2016;12（3）：1https://doi.org/10。1371/journal.pgen.1005928。[28]Lombaert E，Ciosi M，Miller NJ，Sappington TW，Blin A，Guillemaud T.北美西部玉米根虫（Diabrotica virgifera virgifera）的殖民历史：使用微卫星数据的随机森林ABC的见解BiolInvasions2017;1https://doi.org/10.1007/s10530-017-1566-2[29]Smith ML，Ruffley M，Espíndola A，Tank DC，Sullivan J，Carstens BC.使用随机森林和场地频谱的地形模型选择。Mol Ecol 2017;26（17）：4562https://doi.org/10.1111/mec。14223[30]Schrider DR，Ayroles J，Matute DR，Kern AD.有监督的机器学习揭示了果蝇和果蝇基因组中的基因渗入位点。 sechellia。Payseur BA，ed. 2018;14（4）：e1007341. https://doi.org/10.1371/journal.pgen的网站。1007341。网址https://doi.org/10.1371/journal.pgen.1007341。[31]Kern AD，Schrider DR.diploS/HIC：一种对选择性扫描进行分类的更新方法G3#58;Genes-Genomes-Genet2018;（2005）.https://doi.org/10.1534/g3.118.200262.网址https://doi.org/10.1534/g3.118.200262。[32]WegmannD ， LeuenbergerC ， NeuenschwanderS ， ExcoffierL.ABCtoolbox ：一个用于近似贝叶斯计算的多功能工具包 BMCBioinformatics 2010;11：116https://doi.org/10.1186/1471-2105-11-116[33] NunesMA，Prangle D. Abctools：一个用于调整近似baking计算分析的R包。R J 2015;7（2）：1[34]Mertens UK，Voss A，Radev S. ABrox-一个用户友好的Python模块，用于近似贝叶斯计算，重点是模型比较。 PLoS ONE 2018;13 （ 3 ） .0193981.https://doi.org/10.1371/journal.pone.0193981，URLe0193981。https://doi.org/10.1371/journal.pone.0193981网站。

下载后可阅读完整内容，剩余1页未读，立即下载