没有合适的资源?快使用搜索试试~ 我知道了~
软件X 21(2023)101274原始软件出版物ShinyGAStool:一个用户友好的候选基因关联研究工具Thomas J. Hoffmanna,b,c,Christine Miaskowskic,d,Kord M. Koberc,d,ea美利坚合众国加利福尼亚州旧金山加利福尼亚大学流行病学和生物统计学系b美利坚合众国加利福尼亚州旧金山加利福尼亚大学人类遗传学研究所c美利坚合众国加利福尼亚州旧金山加利福尼亚大学护理学院d美利坚合众国加利福尼亚州旧金山加利福尼亚大学Helen Diller家庭综合癌症中心e美利坚合众国加利福尼亚州旧金山加利福尼亚大学巴卡尔计算健康科学研究所ar t i cl e i nf o文章历史记录:收到2021年收到修订版,2022年5月23日接受,2022年保留字:遗传关联回归分析单核苷酸多态性Ra b st ra ct分析基因分型和测序数据的主要障碍是进行分析所需工具的相对复杂性。我们开发了shinyGAStool,这是一个开源工具,使用户能够在Web浏览器中以易于使用的工具从大型数据集执行候选基因关联分析。通过3步工作流程,shinyGAStool允许用户(1)识别和探索表型和协变量的分布,(2)选择要评估的基因和变体,以及(3)运行将两者联系起来的关联分析©2022作者(S)。由爱思唯尔公司出版这是CC BY-NC-ND下的开放获取文章许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)。代码元数据当前代码版本V1.1此代码版本使用的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX-D-21-00139法律代码许可证GNU GPL v3.0使用git的代码版本控制系统软件代码语言、工具和服务使用R编译要求,操作环境依赖R模块:shiny; shinyFiles; DT; compiler; Bioconductor; snpStats;热图如果可用,链接到开发人员文档/手册https://github.com/kordk/shinyGAStool问题支持电子邮件Thomas. ucsf.edu,Kord. ucsf.edu软件元数据当前软件版本V1.1此版本可执行文件的永久链接https://github.com/kordk/shinyGAStool/releases/download/v1.1/shinyGAS-2022-05-19-setup.exe法律软件许可证GNU GPL v3.0计算平台/操作系统Microsoft Windows(请使用Linux和Macintosh的R源文件安装要求依赖关系如果可用,请链接到用户手册-如果正式出版,请在参考列表中引用该出版物https://github.com/kordk/shinyGAStool问题支持电子邮件Thomas. ucsf.edu,Kord. ucsf.edu*通讯作者:美国加利福尼亚州旧金山加利福尼亚大学护理学院。电子邮件地址:kord. ucsf.edu(Kord M. Kober)。https://doi.org/10.1016/j.softx.2022.1012741. 动机和意义随着基因分型和测序技术的快速发展以及实施和数据收集成本的降低,2352-7110/©2022作者。由爱思唯尔公司出版。这是一篇开放获取的文章,使用CC BY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表SoftwareX期刊主页:www.elsevier.com/locate/softxThomas J. Hoffmann,Christine Miaskowski和Kord M. Kober软件X 21(2023)1012742图1.一、ShinyG AStool中 的数据流概 述 。可用性和遗传关联研究的数量[1]。这些基因组数据集变得越来越容易访问,越来越多的领域正在利用这些数据。随着这些新的数据集,现在可以解决以前无法解决的各种研究问题。例如,个性化健康时代的遗传关联研究急剧增加[2]。尽管使用量有所增加,但这些新的研究方向中的许多都需要深入了解新技术及其应用,对现有工具进行新的调整,或开发全新的工具。基因组学分析更广泛应用的一个主要障碍是获取所需工具的相对复杂性数据并进行分析。实际上,并非所有的研究小组都有技能或资源来学习或利用另一个计算接口(例如,使用命令行Thomas J. Hoffmann,Christine Miaskowski和Kord M. Kober软件X 21(2023)1012743图二、 ShinyGAStool表型工作流程。加载样本特征数据,并识别样本ID、结果变量和协变量选定的变量载于一个总表和图表中,以供探讨。访问Unix/Linux系统和工具)[3]。尽管健康科学研究在利用系统生物学、[4,5]数据科学[6,7]和基因组学[8,9]方法方面正在迅速增长,但信息学支持系统和临床科学家的培训(即,医生,心理学家,药剂师,护士,社会工作者科学家)仍然缺乏[10,11]。对支持当前研究以及教授下一代临床科学家的工具的需求很高[12]。这种技术技能上的差距限制了研究人员进行分析的能力。为了解决这一差距,我们引入了shinyGAStool,它是以易于访问的方式开发的(即,开源)和易用性(即,简单接口)同时也提供了一个强大的分析方法。该工具对于探索性分析或候选基因分析特别有用。我们设想shinyGAStool将来将用于本科生和研究生的培训和探索性的候选基因分析。2. 软件描述根据以前实施这些分析方法的研究(例如,[13-祖先信息标记主 成 分 ) 。 ShinyGAStool 是 用 R 语 言 编 写 的 , [16] 用 shiny(https://CRAN.R-project.org/package=shiny),并运行在所有主要的Web浏览器测试,使界面有用的广大观众。发行版还作为独立的二进制文件提供,对于Windows,使用R-portable(https://sourceforge.net/projects/rportable/)。这个包需要一些R包(以及这些包的依赖关系),如下所示用户样品表型/元数据作为由R包rio(https://cran.r-project.org/web/packages/rio/index.html)支持的广泛数据格式中的任一种提供,并且样品基因型作为二进制PLINK文件提供(图2)。①的人。用户从为GRCh 38/hg 19 [17]和GRCh 39/hg38组装[18]提供的注释中选择要使用的人类基因组参考版本。尽管提供使用DT软件包(https://CRAN.R-project.org/package=DT)将结果显示在表格中。使用snpStats计算自动计算连锁不平衡(LD)的图形表示(https://www.bioconductor.org/packages/snpStats),并使用heatmaply软件包 ( https://cran.r-project.org/web/packages/heatmaply/ ) 提 供包括悬停文本的自定义可视化最后,使用线性、逻辑、Cox或自定义用户指定的回归进行遗传关联分析给定用户指定的回归基本上可以拟合R中可指定的任何模型,任何回归技术(例如,线性混合模型、分位数回归)和更复杂的模型(例如,基因-环境相互作用的相互作用项)对于用户来说是容易获得的。通过基因符号、dbSNP id和/或染色体位置鉴定用于评估的基因座。来自UCSC基因组浏览器[20,21]的三个基因注释表用于符号选择Thomas J. Hoffmann,Christine Miaskowski和Kord M. Kober软件X 21(2023)1012744图3.第三章。 ShinyGAStool基因型选择工作流程。选择基因组构建和鉴定位点以提取和评估。(i.e.、CCDS,[22] RefSeq,[23]和GENCODE [24])。基因座被建模为剂量(即,零个、一个或两个拷贝)。三种遗传模型可用于测试(即,加性的、显性的和隐性的)。用户从提供的样本数据中识别因变量和自变量。使用基础R分布中的相应函数进行回归分析(即,LM用于线性回归,GLM用于逻辑回归,CoxPH用于生存分析)。除了一个结果表,曼哈顿当地的一个阴谋,使用plotly软件包(https://CRAN.R-project.org/package=plotly)显示,以进行有用的悬停文本交互[25]为了帮助进一步探索和可视化这些结果,链接其 他 流 行 的 网 络 应 用 程 序 也 包 括 在 内 , 包 括 LD 链 接( https://ldlink.nci.nih.gov; 在 其 他 参 考 面 板 中 探 索 LD ) , [26]UCSC基因组浏览器(https://genome.ucsc.edu/;注释轨道覆盖在基因组旁边),[27] FUMA(https://fuma.ctglab.nl/;与GTeX eQTL数据,GWAS命中,曼哈顿图等链接),[28]和LocusZoom(http://locuszoom. org; local Manhattan plots). [29]第10段。3. 说明性示例完成三步工作流程以执行遗传关联分析。用于演示和测试的模拟低密度脂蛋白(LDL)数据集的数据文件(以及用于生成它们的代码)包含在存储库(https://github.com/kordk/shinyGAStool/demo)上提供。3.1. 步骤1:变量选择对于本例,我们将使用存储库中包含的模拟低密度在第一步中,用户将加载表型(Meta)数据,并识别用于评估的因变量和自变量(图2)的情况。样本信息以rio可以导入的任何格式提供(在撰写本文时包括37种常见格式),并且必须包括样本标识符、感兴趣的结果(例如,LDL水平),以及模型中包含的任何其他协变量(例如,年龄、性别、祖先信息标记主成分)。然后,用户识别用于与基因型数据(在下一步中提供)和感兴趣的结果相关联的变量汇总统计量和描述性图(例如,直方图)用于评估。3.2. 步骤2.基因型位点选择用户从shinyGAStool提供的GRCh 37/hg 19或GRCh 38/hg 38人类参考基因组集合中选择适当的注释数据(图11)。3)。研究基因型数据必须采用通用PLINK文件格式(即,bed/bim/fam)[30]。然后选择用于评估的基因座 通过基因,基因座名称(例如,dbSNP参考SNP(rs或RefSNP)编号,仅可从bim文件中选择,以帮助避免任何分型错误)和/或染色体区域(染色体和碱基对位置)。当提供基因名称时,用户可以在基因区域之间进行选择(即,转录起始-结束、外显子或仅编码)和转录物的类型(即,全部或特定)。还提供了包括命名基因的上游和下游的基因座的选项。还可以基于来自共有编码序列(CCDS)、RefSeq和/或GENCODE来源的符号来选择基因座。一旦选择完成,就从用户基因型文件中提取这些基因座的基因型,并总结(1)在表中(例如,频率,HWE测试),以及(2)使用LD图(上三角形中的R2Thomas J. Hoffmann,Christine Miaskowski和Kord M. Kober软件X 21(2023)1012745∼∼|∼图四、 ShinyGAStool分析工作流程。选择要执行的回归模型和遗传模型3.3. 步骤3.遗传关联分析最后,选择并执行关联测试(图4)。用户将选择适合其结果的性状特征的线性、逻辑、Cox或自定义回归之一,并选择遗传模型进行评估。分析结果以表格形式呈现,并可导出为CSV文件。示例代码将为任何选定的模型生成,以帮助用户创建自己的更高级的模型。 例如,如果用户已经选择了结果变量如果选择了附加编码)。然后通过选择自定义模型选项,并稍微编辑产生的模型,用户可以使用代码data=phe ''。作为第二个例子,可以指定混合效应模型, 使用 lmerTest(https://CRAN.R-project.org/package=lmerTest)[31]和lme4(https://CRAN.R-project.org/package=lme4)[32],代码为对于这些模型和其他回归模型,必须在界面的启动3.4. 数据准备建议和限制若干建议和限制值得考虑。建议使用已经经过质量控制程序的基因型数据。基因型数据目前仅支持PLINK文件类型。未来的版本可能包括支持端口的变体调用格式(VCF)文件。尽管可以使用任何参考基因组(例如,其他人类组件或其他物种),仅提供GRCh 37/hg 19和GRCh 38/hg 38作为注释。未来的版本可能包括对用户指定注释的基于接口的4. 影响我们提出了shinyGAStool,一个简单而强大的工具,使用户能够访问大型全基因组基因型数据集,基因组注释,并在他们的桌面上执行遗传关联分析。该工具实现了一种回归方法,我们的团队在过去十年中已在20多项研究中用于遗传关联测试。虽然我们使用该方法取得了巨大的成功,但这些研究的遗传数据是使用定制的微阵列或直接基因分型收集的,并且需要自定义分析管道,用于提取数据并执行分析。鉴于基因组数据收集已经转变为使用全基因组和全外显子组微阵列以及具有标准化数据格式的测序方法,我们发现这些分析对广泛社区的可访问性有限Thomas J. Hoffmann,Christine Miaskowski和Kord M. Kober软件X 21(2023)1012746由于对数据提取和使用各种分析工具的知识和专业知识不足。结合信息学更高级培训的实施,我们开发了ShinyGAStool,以方便简单方便地访问数据和我们的分析方法。我们预计,该工具将被跨多个学科的博士前学生、博士后研究员和临床科学家使用(例如,医学、护理学、药学、心理学),他们在生物信息学方面没有深入的知识5. 结论ShinyGAStool是一个简单而强大的工具,使用户能够访问大型全基因组基因型数据集,基因组注释,并通过用户友好的界面在桌面上进行遗传关联分析。竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作确认这项工作得到了美国国家癌症研究所(CA233774)的支持。其内容仅由作者负责,不代表美国国立卫生研究院(NIH)的官方观点。引用[1] Buniello A , MacArthur JAL , Cerezo M , Harris LW , Hayhurst J ,MalangoneC,et al. The NHGRI-EBI GWAS Catalog of published genome-wideassociation studies,targeted arrays and summary statistics.核酸研究2019;47(D1):D1005-12。[2] GWAS属于人民。Nat Med 2018;24(10):1483。[3] Chen LS,Goodson P.将基因组学应用于公共卫生教育的障碍:混合方法研究。Genet Med2009;11(2):104-10。[4] Founds S.大数据和精准健康时代的护理系统生物学。Nurs Outlook2018;66(3):283-92.[5] Loscalzo J,Barabasi AL.系统生物学和医学的未来。WileyIntercept Rev SystBiol Med2011;3(6):619-27。[6] Dreisbach C , Koleck TA. 数 据 科 学 在 基 因 组 护 理 中 的 地 位 。 BiolResNurs2020;1099800420915991.[7] Frohlich H , Balling R , Beerenwinkel N , Kohlbacher O , Kumar S ,Lengauer T等,从炒作到现实:数据科学使个性化医疗成为可能。BMCMed2018;16(1):150。[8] 康利YP。护理研究中的遗传学与基因组学。Biol Res Nurs2009;11(1):5-6.[9] Khoury MJ,Bowen MS,Clyne M,Dotson WD,Gwinn ML,Green RF,等. 从公共卫生基因组学到精准公共卫生:20年历程。Genet Med2018;20(6):574-82。[10]放大图片作者:Collins FS,Varmus H.精准医疗的新举措。新英格兰医学杂志2015;372(9):793-5。[11]基因组护理科学咨询P,Calzone KA,Jenkins J,Bakos AD,Cashion AK,Donaldson N等。基因组护理科学的蓝图。J Nurs Scholarsh2013;45(1):96-104.[12]Whitley KV,Tueller JA,Weber KS.个人基因组学时代的基因组学教育:学术,专业和公共考虑。IntJ Mol Sci2020;21(3).[13]Illi J , Miaskowski C , Cooper B , Levine JD , Dunn L , West C , et al.Associationbetweenpro-andanti-inflammatorycytokinesgenesandasymptomcluster of pain,fatigue,sleep disturbance,and depression.细胞因子2012;58(3):437-47.[14]Eshragh J,Dhruva A,Paul SM,Cooper BA,Mastick J,Hamolsky D,etal.乳腺癌手术后女性神经递质基因与疲劳和能量水平之间的关联。疼痛症状管理杂志2017;53(1):67- 8 4 , e 6 7 。[15]Kober KM,Smoot B,Paul SM,Cooper BA,Levine JD,Miaskowski C. 细胞因子基因多态性与乳腺癌手术后女性的高水平疲劳和低水平能量相关。疼痛症状管理杂志2016;52(5):695[16]RC团队。R:统计计算的语言和环境。奥地利维也纳:R Foundation forStatistical Computing; 2019。[17][10] ChurchDM , Schneider VA, Graves T,Auger K,Cunningham F,Bouk N,et al.现代化参考基因组组装。PLoS Biol2011;9(7):e1001091.[18]Schneider VA , Graves-Lindsay T,Howe K, Bouk N, Chen HC ,KittsPA , etal.EvaluationofGRCh38anddenovohaploidgenomeassembliesdemonstrates the enduring quality of the reference assembly.Genome Res2017;27(5):849-64.[19]TurnerS , Armstrong LL , Bradford Y , Carlson CS , Crawford DC ,CrenshawAT , etal.Qualitycontrolproceduresforgenome-wideassociation studies. CurrProtoc Genet 2011;第1章(第1单元):19。[20]Karolchik D,Hinrichs AS,W.J. Kent. UCSC基因组浏览器Curr ProtocGenet2011;第18章(第18单元):16。[21]Rosenbloom KR , Armstrong J , Barber GP , Casper J , Clawson H ,Diekhans M,et al. The UCSC genome browser database. Nucleic Acids Res2015更新;43(数据库问题):D 670 -81。[22]Pujar S,O'Leary NA,Farrell CM,Lovel JE,Mudge JM,Wallin C,等. 共有编码序列(CCDS)数据库:由专家策展支持的人类和小鼠蛋白质编码区的标准化集合。核酸研究2018;46(D1):D221-8。[23]O'Leary NA,Wright MW,Rehter JR,Ciufo S,Haddad D,McVeigh R等,参考序列(RefSeq)数据库在NCBI:电流sta-tus、分类学扩展和功能注释。Nucleic Acids Res2016;44(D1):D733-45.[24]Frankish A,Diekhans M,Ferreira AM,Johnson R,Jungreis I,Lovel J等人,GENCODE reference annotation for the human and mouse genomes. 核酸研究2019;47(D1):D 766 -73。[25]西弗特角基于Web的交互式数据可视化,使用R,plotly和shiny。Chapman和Hall/CRC; 2020。[26]Machiela MJ,Chanock SJ. LDlink:一个基于网络的应用程序,用于探索群体特 异 性 单 倍 型 结 构 并 连 接 可 能 的 功 能 变 体 的 相 关 等 位 基 因 。Bioinformatics2015;31(21):3555-7.[27]Kent WJ,Sugnet CW,Furey TS,Roskin KM,Pringle TH,Zahler AM,等.UCSC的人类基因组浏览器。Genome Res2002;12(6):996-1006.[28]放大图片作者:Watanabe K,Taskesen E,van Bochoven A,Posthuma D.FUMA基因的功能定位和遗传关联注释. Nature Commun2017;8(1):1826.[29]Boughton AP , Welch RP , Flickinger M , VandeHaar P , Bauzun D ,AbecasisGR , etal.LocusZoom.js : Interactiveandembeddablevisualization of geneticassociation study results.生物信息学2021.[30]Purcell S,Neale B,Todd-Brown K,Thomas L,Ferreira MA,Bender D,etP L I N K :全基因组关联和基于群体的连锁分析工具集。美国遗传学杂志2007;81(3):559[31]Kuznetsova A,Brockhoff PB,Christensen RHB. ImerTest包:线性混合效应模型中的检验。J Stat Softw2017;82(13):1-26.[32]Bates D,Mächler M,Bolker B,Walker S.使用lme4拟合线性混合效应模型。J Stat Softw2015;67(1):1-48.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- WebLogic集群配置与管理实战指南
- AIX5.3上安装Weblogic 9.2详细步骤
- 面向对象编程模拟试题详解与解析
- Flex+FMS2.0中文教程:开发流媒体应用的实践指南
- PID调节深入解析:从入门到精通
- 数字水印技术:保护版权的新防线
- 8位数码管显示24小时制数字电子钟程序设计
- Mhdd免费版详细使用教程:硬盘检测与坏道屏蔽
- 操作系统期末复习指南:进程、线程与系统调用详解
- Cognos8性能优化指南:软件参数与报表设计调优
- Cognos8开发入门:从Transformer到ReportStudio
- Cisco 6509交换机配置全面指南
- C#入门:XML基础教程与实例解析
- Matlab振动分析详解:从单自由度到6自由度模型
- Eclipse JDT中的ASTParser详解与核心类介绍
- Java程序员必备资源网站大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功