sv-benchmark: 公开基准测试PacBio CCS HG002结构变异
需积分: 50 56 浏览量
更新于2024-11-22
收藏 59KB ZIP 举报
PacBio CCS(连续长读取)技术是利用单分子实时测序技术进行高准确度长读取序列产生的数据集,其中HG002(NA24385)是Ashkenazim犹太人父亲-儿子三联体中父亲的样本,被广泛用于基因组学研究。在这个基准中,使用了公开的PacBio CCS 15kb数据集来调用结构变异(SV),结构变异是指基因组中插入、缺失、倒位或复制等大于50个碱基对的变异。
结构变异调用基准旨在提供一个平台,让研究者可以比较不同的结构变异检测工具和算法。基准提供了详细的步骤,说明如何使用公开的工具重现最终的性能指标。性能指标包括:
- 覆盖率:通常指读取数据对样本基因组的覆盖程度,这里的28倍覆盖率表示基因组被28倍的读取覆盖。
- F1分数:是精确度(Precision)和召回率(Recall)的调和平均数,用于评估结果的准确性和完整性。
- 精确度:指正确识别出的变异与所有识别出变异的比例。
- 召回率:指正确识别出的变异与实际变异总数的比例。
- FP(假阳性):被错误地识别为变异的区域。
- FN(假阴性):实际存在变异但未被识别出的区域。
- FP + FN:总的错误数量,即误判和漏判的总和。
在这个基准中,通过不同的工具对样本进行分析,可以得到上述各项指标的数值,从而评估不同工具在结构变异检测上的性能。例如,从描述中可以看到,三个不同的工具得到了以下的性能指标:
- 第一个工具的F1分数为96.29%,精确度为94.61%,召回率为98.02%,假阳性为538,假阴性为191,总错误数为729。
- 第二个工具的F1分数为94.12%,精确度为93.76%,召回率为94.48%,假阳性为606,假阴性为532,总错误数为1138。
- 第三个工具的F1分数为93.56%,精确度为93.30%,召回率为93.83%,假阳性为650,假阴性为595,总错误数为1245。
此外,基准还包括了不同覆盖度(5倍、10倍和28倍)下的结构变异检测工具的比较。覆盖度是评估测序深度的一个重要参数,不同的覆盖度下,检测工具的表现可能会有很大差异。
为便于用户使用,基准中提供了有关如何安装conda环境管理器以及如何添加bioconda通道的指南。conda是一个开源的包、依赖和环境管理系统,可以用来安装各种软件包以及其依赖关系。bioconda是一个专门针对生物信息学软件的conda通道,用户可以通过conda来安装PacBio CCS数据处理的工具,例如pbmm(Pacific Biosciences的Minnie Map Aligner)等。
文件名称列表中的“sv-benchmark-master”暗示了这是一个包含结构变异调用基准相关资源的主目录。目录中可能包含:
- 文档:描述如何设置环境、安装依赖、重现基准测试结果的指南。
- 工具列表:列出了参与基准测试的各种工具和软件。
- 数据集:提供用于基准测试的PacBio CCS HG002数据集。
- 脚本和工具链:用于自动化数据分析流程的脚本以及如何运行特定工具的说明。
- 性能结果:各个工具的性能评估结果,通常以表格或者图表的形式呈现。
- 说明文档:提供关于如何理解和使用基准的详细信息。
通过这样一个全面的基准,研究人员可以评估和比较不同工具在实际应用中的效果,帮助他们选择最适合特定研究需求的工具,从而推动结构变异研究和相关算法的优化和改进。
234 浏览量
236 浏览量
2028 浏览量
122 浏览量
392 浏览量
124 浏览量
2021-05-09 上传
2021-05-01 上传
2021-07-16 上传

谁家扁舟子
- 粉丝: 33

最新资源
- 基于Spring Data的Cassandra入门项目源码分析
- graphql-pundit:提升Ruby GraphQL应用的授权管理
- 使用ArcEngine在MapControl上绘制椭圆及带箭头线
- STM8单片机GPIO口设置与IAR工程应用示例
- OpenGL图形学综合试验:轿车动画设计与实现
- 华康WDL电子书阅读器使用指南
- NETCoreBlockly:将.NET Core API转换为可视化编程块
- 基于.NET的学生成绩管理系统设计与实现
- ASP技术构建的网上购物系统网站设计与实现
- Windows 2012 R2 英文语音包安装指南
- STC头文件整理指南,官网难题轻松解决
- 经典Android培训教材PPT系列下载
- 在线题库管理系统源码 - Asp.net开发实现
- Atmega128单片机S65 LCD图形编程实践指南
- WinDjView1.01:无需安装的高效DJVU文件阅览器
- 深入理解客户端GraphQL应用与架构