下一代测序驱动的新型基因型检测算法提升罕见变异识别准确性

PDF格式 | 170KB | 更新于2024-09-05 | 79 浏览量 | 举报

本文研究了一种用于下一代测序（Next-Generation Sequencing, NGS）数据的新型基因型估计算法，由黄巩怡和尤娜在中山大学数学与计算科学学院提出。在生物科学研究中，准确识别罕见变异是至关重要的，尤其是在高通量测序技术快速发展的背景下。传统的基因型分析方法可能难以区分基因组的结构性变异（Structural Variations, SVs）和测序错误，而这两种变异对后续的生物学研究和疾病诊断有显著影响。该算法的核心在于构建了一个统计模型，它引入了隐变量来标记基因型。通过这种方式，模型能够细致地刻画不同样本和不同基因位点上非参照等位基因的频率分布，区分那些由于真实遗传差异（即基因型）和测序误差引起的频率变化。该模型特别强调了样本效应和位点效应的分离，使得估计更加精确。参数估计采用了Expectation-Maximization (EM) 算法，这是一种迭代优化方法，用于寻找最能解释观测数据的参数值。在实验验证阶段，研究者将这个新算法应用于模拟数据和实际测序数据的分析中，对比了其与现有方法的表现。结果显示，该新型算法具有显著的优势，基因型错误率更低，这意味着在处理复杂遗传背景和高噪声环境时，它能更有效地确定个体的基因型，从而提高罕见变异检测的准确性。关键词：“生物统计”、“经验贝叶斯”、“下一代测序数据”和“基因型估计”揭示了文章的核心研究领域和技术基础。此外，中图分类号 O212.8 表明这是一项关于生物信息学方法和技术的创新工作，对于提升NGS数据分析的精度和效率具有重要意义。这项研究不仅提供了一个有效的基因型估计工具，还为解决测序数据中复杂变异问题开辟了新的途径，对于推动生物医学领域的个性化医疗和精准研究具有潜在的巨大价值。

˖ڍመ᝶஠ڙጲ

http://www.paper.edu.cn

用于下一代测序数据突变分析的新型基因型

估计方法研究

黄巩怡，尤娜

中山大学数学与计算科学学院，广州 510275

摘要：利用下一代测序数据估计基因型对于罕见变异的识别起到重要作用。本课题提出一个统

计模型将基因组的结构性变异和测序错误区分开来；该模型通过引入一个隐变量标记基因型，

并将测序错误分解为样本效应和位点效应，来刻画不同样本、不同位点上的非参照等位基因频

率，从而更好的估计基因型。我们通过 ECM 算法实现该模型的参数求解，并根据求解得到的

模型参数值代入计算后验概率，从而推断出基因型。我们将该模型与现有的方法分别应用到模

拟数据和实际数据的分析中进行比较。通过比较发现，该模型具有更小的基因型错判率。

关键词：生物统计；经验贝叶斯；下一代测序数据；基因型估计

中图分类号： O212.8

A novel genotyping algorithm for SNP detection

using next generation sequencing data

Huang Gongyi, You Na

School of Mathematics and Computational Science, Sun Yat-Sen University, Guangzhou

510275

Abstract: Genotyping the population using next generation sequencing data is essentially

important for the rare variant detection. In order to distinguish the genomic structural

variation from sequencing error, a statistical model is proposed, which involves the genotype

eﬀect through a latent variable to depict the distribution of non-reference allele frequency

data among diﬀerent samples and diﬀerent genome loci, while decomposing the sequencing

error into sample eﬀect and positional eﬀect. An ECM algorithm is implemented to estimate

Foundations: 高等学校博士学科点专项科研基金 (20120171120006).

Author Introduction: Huang Gongyi (1991-), female, Master, major research direction：biostatistics, bioinformatics.

Correspondence author：You Na (1979-), female, associate professor, major research direction：biostatistics, bioinformatics.

E-mail: youn@mail.sysu.edu.cn

- 1 -

下载后可阅读完整内容，剩余9页未读，立即下载

weixin_38594266

粉丝: 4

下一代测序驱动的新型基因型检测算法提升罕见变异识别准确性

Development of a single nucleotide polymorphism (SNP) DNA Microarray for Detection and Genotyping of SARS Coronavirus

2017ac-单细胞mRNA成像

howler_monkey_genotyping

Identification, genotyping, and molecular evolution analysis of duck circovirus

An Automatic High-Throughput Single Nucleotide Polymorphism Genotyping Approach Based on Universal Tagged Arrays and Magnetic Nanoparticles

vargeno：从全基因组测序数据中快速准确地进行SNP基因分型，以进行床边诊断

Genotyping of −765G > C in COX-2 Gene Based on MNPs and Dual-Color Fluorescence Hybridization and Its Association with Risk of Gastric Cancer in Northern Jiangsu of China

生物信息学实用教程：SNP分析与基因注释工具详解

对转录组进行SNP调用时，应该怎样修改这一命令，特别是这里：--genotyping-mode DISCOVERY

用gatk进行二代测序数据snp calling流程 以及对代码的解析

最新资源

用gatk进行二代测序数据snp calling流程以及对代码的解析