没有合适的资源?快使用搜索试试~ 我知道了~
软件影响16(2023)100498原始软件出版物DNA重叠分析工具Jan Havlíka,a,Václav Brázdab,Kamil Stanzekc,Michal Ježekc,Jií Šta信息学系,商业和经济学院,布尔诺孟德尔大学,捷克共和国,布尔诺,Zemplodelská 1,613 00b捷克科学院生物物理研究所,Královopolská 135,612 65 Brno,Czech Republicc捷克布尔诺理工大学机械工程学院,Technická 2896/2,616 69 Brno,Czech RepublicA R T I C L E I N F O保留字:DNAr环G-quadruplex注释A B标准这一贡献把重点放在一个命令行工具,它可以检测和分析G-四链体,R-环和基因组注释之间的重叠区域选择的基因组。G-四链体和R-环是具有高鸟嘌呤密度的结构,这是两种结构的重要创建因素。两种结构之间的共同区域(重叠)可以为我们提供更好的可能性,以创建精确的模型来检测R环,并在检查具有高R环密度的基因组注释时提供有价值的见解。 该工具被用于多个研究项目,并正在不断开发,为生物信息学世界带来新的功能。代码元数据当前代码版本V1.2.0用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2023-61可再生胶囊的永久链接https://codeocean.com/capsule/0809956/tree/v1法律代码许可证MIT许可证使用git的代码版本控制系统软件代码语言、工具和服务使用python3README(和requirements.txt文件)中列出的编译要求、操作环境和依赖关系如果可用,请链接到开发人员文档/手册https://github.com/jan-havlik/feature-overlapper#readme问题支持电子邮件jan. protonmail.com1. 介绍特征分析器工具是生物信息学命令行实用程序,其使用户能够一次运行DNA序列(R环、G四链体、回文)的多个远程分析,收集数据并最终将分析输出合并在一起,以便找到所提及的核酸结构或DNA序列元数据(注释)之间的交集。2. 功能描述Anchore-Clonper是一个用Python语言编写的工具,能够在包含G四链体和R环的核苷酸序列中找到共同区域。根据选择的模式,我们可以还可以将R环或G四链体与特征表进行比较,并使用选定的分析检查重叠注释。 既可以通过NCBI ID列出要分析的序列,也可以添加它们以分析命名的相应文件夹,工具将覆盖文件夹中的每个分析文件。 如果通过命令行只指定一种分析类型(例如rloop),则分析文件将与注释文件夹中的相应注释文件(特征表)进行比较(如果存在此类文件)。详细输出将存储在包含三种类型文件的比较文件夹中。文本作为分析和注释文件之间重叠的结果的文件,该文件以人类可读的形式彻底描述分析发生(重叠百分比、发生计数)。 还提供了机器可读的xlsx文件,其中包含一些额外的数据,如平均重叠覆盖率和附加特征元数据。最后一个文件也在本文中的代码(和数据)已由Code Ocean认证为可复制:(https://codeocean.com/)。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。*通讯作者。电子邮件地址:xhavlik@mendelu.cz(J. Havlík),stastny@fme.vutbr.cz(J.这是个好消息)。https://doi.org/10.1016/j.simpa.2023.100498接收日期:2023年2月13日;接收日期:2023年3月10日;接受日期:2023年3月17日2665-9638/©2023作者。由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表软件影响杂志 首页:www.journals.elsevier.com/software-impactsJ. 哈夫利克河谷布拉兹达湾Stanbirk等人软件影响16(2023)1004982Fig. 1. 基本操作流程图xlsx格式,包含给定顺序的两个分析之间的重叠区域(例如,G-四链体中的R-环,反之亦然)。还有一个选项可以生成重叠序列的图形。比较变量如下:• R循环x反向重复(回文)(反之亦然)• R环xG四链体(反之亦然)• R环x特征表(注释)• G-quadruplexx反向重复(回文)(反之亦然)• G-quadruplexx特征表(注释)• 反向重复(回文)x特征表(注释)该工具使用不同的算法来确定重叠覆盖率,具体取决于所选择的比较。无论我们将R-loop跟踪器结果与G4 Hunter结果进行比较,还是将每个分析与特征表进行比较,我们总是只选择两个比较部分共有的区域,以保持内存管理。 尽管对于较大的基因组(> 1000万个碱基对),或者,如果在私人计算机上进行,您可能会耗尽内存。 这是由于将两个pandas数据帧合并在一起的实现。如果只选择了单个分析(与注释进行比较),我们将在相同的感兴趣区域中搜索分析结果,这就是为什么结果来自注释的视图。 当将两个分析比较在一起时,重叠覆盖范围来自第一个选择的分析点。流程图描述了该软件的基本操作(见图1)。①的人。R环是由RNA-DNA杂交体和单链DNA(ssDNA)形成的三链核酸结构[1]。这些天然形成的共转录杂合体可有益于转录调节,但另一方面,细胞的正常生理学可被DNA双链断裂、染色体重排和由某些区域中的持久R环结构引起的超突变破坏[2]。鸟嘌呤簇对于R环形成区的起始非常重要。R环延伸区中的高鸟嘌呤密度对新生结构的稳定性具有更大的影响[3]。主要鸟嘌呤的存在是G-四链体中的一个常见特征,这也为探索这两种结构之间的任何现有相关性提供了一条途径。G-四链体是由一个、两个或两个以上的富含鸟嘌呤的核酸形成的螺旋状结构。 或四者,AP核酸内切酶1酶位点损伤导致DNA的内源性损伤,G-四链体结构的形成基于该酶[5]。对于R环或G四链体结构形成重要的高鸟嘌呤密度区域作为重要因素,导致计算机检测方法,如G4 Hunter[6]或R环跟踪器[7]。J. 哈夫利克河谷布拉兹达湾Stanbirk等人软件影响16(2023)10049833. 影响概述图二. 在细菌的整个序列中进行重叠计数。为了展示软件的功能并为可能更好的预测模型准备数据,我们选择了重叠分析随着人类基因组的完整端粒到端粒无间隙序列的可用[8],在人类基因组中存在可以分析的未探索序列。通过使用特征分析软件,如果与基因组注释(特征)相比,则可以寻找感兴趣的新区域。对人类无间隙基因组中的局部DNA结构的分析表明,在先前广泛使用的组装中,G-四链体和形成十字形的反向重复序列的存在被严重低估[9,10],因此,我们的工具提供的功能重叠的自动和快速评估是非常需要的。准确了解功能重叠对于医学研究,理解其意义和治疗用途除了比较excel文件中的位置和手动下载所有数据之外,该软件的用户没有任何形式的比较多重分析和大多数个体分析与基因组注释的比较。分析序列的一般过程如下:1. 下载序列进行分析(例如福氏志贺)。2. 将序列发布到DNA分析仪网站。3. 运行R环分析并下载结果。4. 下载序列的基因组注释。5. 将序列中感兴趣的位置与注释表中的基因进行比较。在当前版本的软件中,上述所有工作在一定程度上都是自动化的,并最终确定重叠区域 都是xlsx格式的。该软件是专门针对根据捷克科学院生物物理研究所的需要,这就是为什么用户群主要来自该机构。软件仍在开发中,挫折是分析 这是一个需要大量内存的操作,需要进行微调。在发现C-末端p53同种型的相互作用中,重复序列-重复序列发挥了作用[11],并且还正在进行发现细菌基因组中反向重复序列的变异性的研究,其中将所有重复序列与细菌注释表进行比较G4 Hunter和R-loop Tracker的结果,并进一步分析具有共同发生区域的特定区域-因此重叠百分比较高。为了发现一些其他有趣的基因组结构,我们还应用了R环和基因组注释的重叠。软件的输入仅是示例细菌-福氏志贺氏菌的NCBI ID。接下来描述重叠结果。R-环和G-四链体之间的最大重叠覆盖是49.2%,重叠百分比非常高-约20%。 通过比较R环的出现与细菌特征表中R环中出现的G四链体,我们可以观察到一些密集覆盖在核苷酸序列相同部分中的区域(见图1)。2)的情况。该图是软件提供的结果的一部分。 结果文件夹中的主xlsx文件还提供了有趣的信息,例如,在与R环出现相同的基因座中的两个有趣的基因-rnpB和hycC。未来的改进和应用到目前为止,我们正在努力改善这个软件的用户体验。R环分析的自动化已经完成,但为了使回文和G四链体分析也自动化,需要对DNA分析仪(https://bioinformatics.ibp.cz)网站做出积极贡献,以支持下载分析结果的能力。在使软件更易于使用之后,我们将继续调整软件- 如果用户没有准备任何数据,最后一步是将软件转换为公共托管的API,它将与我们正在进行的基因组数据库项目进行通信,并有可能直接点击数据库中的重叠区域。竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作J. 哈夫利克河谷布拉兹达湾Stanbirk等人软件影响16(2023)1004984确认本论文得到了IGA MENDELU,Czech Republic PEF_DP_2021028的支持。引用[1]X.潘,加-地Jiang,X. Chen,X.周湖,加-地丁氏F. Duan,R-loop structure:theformationandtheeffectsonthegenomicstability,2014,http://dx.doi.org/10.3724/SP.J.1005.2014.1185,Yichuan=Hereditas/Zhongguo Yichuan Xue Hui Bianji.[2] P. Richard,J.L. Manley,R环和人类疾病的联系,J.Mol. 429(2017)3168http://dx.doi.org/10.1016/J.JMB.2016.08.031[3]D.罗伊,M.R. Lieber,G成簇对于体外转录诱导的R环的起始是重要的,而此后没有 成 簇 的 高 G 密 度 是 足 够 的 , Mol. Cell Biol.29 ( 2009 ) 3124-http://dx.doi.org/10.1128/[4]D. Sen,W. Gilbert,DNA中富含鸟嘌呤基序的平行四链复合物的形成及其对减数分裂的影响,Nature 334(1988)364http://dx.doi.org/10.1038/334364A0[5]N. Kitsera,M. Rodriguez-Alvarez,S. Emmert,T. Carell,A. Khobta,无碱基DNA损伤的核苷酸切除修复,Nucl.Acids Res.47(8537)(2019)http://dx.doi.org/10.1093/NAR/GKZ558网站。[6]V. Brázda,J.Kolomazník,J.Lamposek,M. Bartas,M.福伊塔Mergny,G4Hunter网络应用程序:用于G-四链体预测的网络服务器,Bioinformatics 35(2019)3493http://dx.doi.org/10.1093/BIOINFORMATICS/[7]V. Brázda,J.Havlík,J.Kolomazník,O. Trenz,J.Šjanastn,R-loop tracker:Web access based tool for R-loop detection and analysis in genomic DNAsequences,Int.J.摩尔Sci.22(2021)12857,http://dx.doi.org/10.3390/IJMS222312857。[8] S. Nurk , S.科 伦A.Rhie ,M.Rautiainen ,Bzikadze , A.Mikheenko , M.R. 沃 尔格,N. 阿 尔 特 莫 斯 湖 Uralsky , A. Gershman , S. 作 者 声 明 : A. Diekhans , G.A.Logsdon , M. Alonge , S.E. Antonarakis, M. Borchers ,G.G. Bouffard ,S.Y.Brooks,Caldas,NC Chen,H. Cheng,C.S. Chin,W. Chow,L.G.德利马迪舒克 河 Durbin , T. Dvorkina , I.T. Fiddes , G. 福 尔 门 蒂 河 富 尔 顿 , A.Fungtammasan,E.加里森,P.G.S.格雷迪,助教。格雷夫斯-林赛,I. M.Hall,N.F.Hansen,G.A.哈特利,M. Haukness,K. Howe,M.W.亨卡皮勒角贾因,M。Jain,E. D. Jarvis,P.Kerpedjiev,M.Kirsche,M.Kolmogorov,J. Korlach,M. Kremitzki,H.李,马杜罗,T.放大图片作者:Marschall,A.M. McCartney,J.McDaniel,D.E.米勒,J.C.Mullikin , E.W. 北 达 科 他 州 迈 尔 斯 奥 尔 森 湾 Paten , P.Peluso ,P.A.Pevzner,D.Porubsky,T.波塔波娃,E.I. Rogaev,J.A. Rosenfeld,S.L. Salzberg,VA作者声明:John W. Shafin,C.J.Shew,A. Shumate,Y.西姆斯,A.F.A. Soto,I. Sovi,J.M. Storer,A.街道文学士Sullivan,F.张文辉,张文辉J.M.D.温格伍德角Xiao,S.M.Yan,A.C.杨,S。萨拉特,联合苏尔蒂河McCoy,M. Y.丹尼斯,洛杉矶。亚历山德罗夫Gerton,R.J.W. Timp,J.M.祖克,M.C. Schatz,E.E. Eichler,K.H. Miga,A.M. Phillippy,人类基因组的完整序列,科学(1979)376(2022)44http://dx.doi.org/10.1126/science.abl4178[9] N. Bohálová,J.L. Mergny,V. Brázda,Novel G-quadruplex prone sequencesemerge in the complete assembly of the human x chromosome , Biochimie191(2021)87http://dx.doi.org/10.1016/J.BIOCHI.2021.09.004[10] V. Brázda,N. Bohálová,R. P. Bowater,人类染色体8的新端粒到端粒组装揭示了先前对G-四链体形成序列和反向重复序列的低估,基因810(2022)http://dx.doi.org/10。1016/J.GENE.2021.146058。[11] 戈斯瓦米湖Šisková,M. Dobrovolná,J. Havlík,J. Šastn ,V. Brázda,Interaction of C-terminal p53 isoforms depends strongly upon DNA sequenceandtopology,Biochimie(2022)http://dx.doi.org/10.1016/J.BIOCHI.2022.12.011.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功