OpenCausal:用Matlab代码预测基因组非编码变体的细胞特异性影响

需积分: 9 0 下载量 46 浏览量 更新于2024-11-25 收藏 30.33MB ZIP 举报
资源摘要信息:"OpenCausal是一个用于评估个人基因组中非编码变体细胞类型特异性影响的方法。该方法基于Ropen模型,通过训练基于ENCODE项目的18个组织的42个样本的配对RNA-seq和ATAC-seq数据,预测GTEx样品的染色质可及性得分。Ropen模型可以使用TF表达和基因组序列信息作为输入来预测给定区域的染色质可及性得分。通过对SNP突变前后染色质可及性评分的变化进行计算,可以量化变体对RE的影响。" 1. MATLAB在生物信息学中的应用:MATLAB是一种用于数值计算、可视化以及编程的高性能语言和交互式环境,其在生物信息学领域有广泛应用。在本资源中,MATLAB被用于开发Ropen模型和计算变体的增量得分,显示出其在生物信息学研究中的巨大潜力。 2. ENCODE项目:ENCODE(Encyclopedia of DNA Elements)项目是一项旨在识别人类基因组中所有功能元件的大规模国际研究计划。该项目收集了大量的RNA-seq和ATAC-seq数据,为生物医学研究提供了宝贵的数据资源。 3. RNA-seq和ATAC-seq技术:RNA-seq是一种用于测定样本中所有RNA分子种类和丰度的技术,ATAC-seq是一种用于研究染色质可及性的高通量测序技术。这两种技术在本资源中被用于收集数据以训练和验证Ropen模型。 4. 细胞类型特异性影响评估:细胞类型特异性影响评估是一种用于研究基因变体在不同细胞类型中的影响的方法。在本资源中,Ropen模型被用于预测不同细胞类型中的染色质可及性得分,以评估非编码变体的细胞类型特异性影响。 5. 变体影响量化:在本资源中,通过计算SNP突变前后染色质可及性评分的变化,来量化变体对染色质可及性的影响。这种影响被定义为给定区域的因果得分,为研究基因变体的影响提供了新的视角。 6. Ropen模型:Ropen模型是一种基于RNA-seq和ATAC-seq数据的预测模型,可以预测特定区域的染色质可及性得分。该模型是本资源的核心,为评估非编码变体的细胞类型特异性影响提供了强大的工具。 7. 风险SNP的确定:在本资源中,通过使用从GWAS摘要数据中确定的风险SNP,可以进一步研究这些SNP对特定区域的影响,为理解这些SNP在疾病中的作用提供了新的途径。 8. 高通量测序数据:本资源中提到了全基因组测序(WGS)数据,这是高通量测序技术的一种,可以提供样本中所有DNA序列的信息。WGS数据在本资源中被用于研究SNP突变对染色质可及性的影响。 9. 染色质可及性得分:染色质可及性得分是一种用于衡量DNA区域可被转录因子结合的概率的指标,反映了该区域的活性水平。在本资源中,染色质可及性得分被用于评估非编码变体的影响。 10. 系统开源:标签系统开源表明OpenCausal项目是一个开放源代码的软件项目,允许用户自由使用、修改和分发代码。这有助于推动科学研究的开放性和透明度,促进科研成果的共享。