没有合适的资源?快使用搜索试试~ 我知道了~
软件X 14(2021)100702原始软件出版物omicR:一种便于序列数据BLASTn比对的工具Berenice Talamantes-Becerraa,b,JasonCarlingb,Arthur Georgesaa澳大利亚堪培拉大学应用生态学研究所,ACT 2601bDiversity Arrays Technology Pty Ltd,堪培拉ACT 2617,澳大利亚ar t i cl e i nf o文章历史记录:2020年12月28日收到2021年4月19日收到修订版,2021年保留字:BLASTN测序测序基因分型软件不连续的megaBLASTa b st ra ct用于分析测序数据的生物信息学工具对大多数科学家来说越来越容易获得。不熟悉这些工具的初学者在学习处理大型测序数据集时可能会不知所措。我们发布了omicR for Windows,这是一个用户友好的工具,具有图形用户界面,可以从表格格式的测序数据(如基因分型测序数据)中创建fastA文件。OmicR从NCBI网络服务器下载基因组或其他序列集,并根据选定的参考文献创建基因组数据库。随后,将用户查询序列与参考进行比对,并过滤比对结果,选择每个序列的最佳匹配版权所有2021作者。由爱思唯尔公司出版这是CC BY-NC-ND下的开放获取文章许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)。代码元数据当前代码版本V1此代 码 版 本 使 用 的代码/存储库的永久链接 文件 对于Windows:OmicR 在 GitHub:https://github.com/ElsevierSoftwareX/SOFTX-D-21-00001或FigShare中的OmicR:https://doi.org/10.6084/m9.figshare.14431469.v1Code Oceancompute capsuleCode Ocean不适用于GUI。法律代码许可证Apache-2.0许可证使用的代码版本控制系统无使用Python的软件代码语言、工具和服务编译要求、操作环境依赖性ncbi-blast-2.7(makeblastdb.exe. blastn.exe)GitHub中https://github.com/BTalamantesBecerra/omicR_for_Windows的开发人员文档/手册或FigShare中的OmicR:https://doi.org/10.6084/m9.figshare.14431469.v1问题支持电子邮件Berenice. canberra.edu.au软件元数据当前软件版本V1GitHub中https://github.com/BTalamantesBecerra/omicR_for_Windows此版本或FigShare中的OmicR:https://doi.org/10.6084/m9.figshare.14431469.v1合法软件许可证Apache-2.0 许可证电脑平台/操作系统微软视窗7或以上。安装要求依赖性BLAST+ BLAST+最新版本可在此处下载:https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/BLAST+的用户手册可在此处找到:https://www.ncbi.nlm.nih.gov/books/NBK279684/如果可用,请链接到用户手册-如果正式发布,请包括参考文献列表中对出版物的参考GitHub中的OmicR:https://github.com/BTalamantesBecerra/omicR_for_Windows或FigShare中的OmicR:https://doi.org/10.6084/m9.figshare.14431469.v1问题支持电子邮件Berenice. canberra.edu.au通讯作者:堪培拉大学应用生态学研究所,ACT 2601,澳大利亚。电子邮件地址:Berenice. canberra.edu.au(Berenice Talamantes-Becerra)。https://doi.org/10.1016/j.softx.2021.1007022352-7110/©2021作者。由爱思唯尔公司出版。这是一篇开放获取的文章,使用CC BY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表SoftwareX期刊主页:www.elsevier.com/locate/softxBerenice Talamantes-Becerra,Jason Carling和Arthur Georges软件X 14(2021)10070221. 动机和意义获得高通量测序技术已经使得能够产生大量的序列数据,包括用于分子标记技术,如测序基因分型技术[1]。越来越多的软件工具可用于核苷酸序列比对,这通常需要熟悉Linux或Windows命令行工具才能运行分析[2,3]。一些用户友好的工具已经存在用于此目的[4omicR的主要区别之一是,它提供了直接从序列数据进行BLASTn比对的能力,这些序列数据存在于分子标记技术中常见 OmicR允许用户输入表格数据集,之后将提取序列并格式化用于BLASTn比对。然后进行BLASTn比对,并过滤比对输出,然后插入原始表格数据文件中。此外,omicR中提供的过滤与其他GUI中提供的过滤不同,它特别适合于对比对进行排序和过滤,以根据用户选择标准和需求提供最佳比对,并将该比对结果在其数据表中返回给用户。该工具可以创建fasta文件,下载基因组,并可以选择运行不连续的megaBLAST。在 这 里 , 我 们 宣 布 omicR , 一 个 用 户 友 好 的 工 具 , 执 行BLASTn比对序列对公共或私人数据库建立,重叠群,支架,基因组组装,或任何其他核苷酸序列用作参考。OmicR是用Python编写的[7],它是为Windows设计的,只需要安装BLAST+ [8]。Python软件以Windows可执行文件的形式呈现,允许Windows用户在不安装Python或配置任何其他Python库的情况下运行此软件。BLAST+可执行文件在NCBI的Windows可执行文件包中提供获得的BLASTn结果允许与生物信息学管线Currito3.1 [9]中使用的过滤标准相似的过滤标准,其被设计用于选择来自细菌分离株[10]的序列的最佳匹配候选基因组以及用于发现和鉴定新细菌[11]。该软件根据重叠百分比、比特分数和同一性百分比为每个查询序列选择最佳匹配。分析中遵循的典型步骤概述如下。该软件将为非生物信息学专家的学生、专业人员和研究人员提供BLASTn分析过程的该软件包括一个用户手册和视频教程适合初学者。2. 软件描述该软件为NCBI+软件工具提供了直观的用户界面,特别是允许用户构建BLASTn数据库并对其执行查询,此外,该软件执行BLASTn比对的过滤,以提供对其比对任务有意义的结果。该软件针对的是在运行命令行工具方面经验有限或没有经验的用户,它还便于从NCBI网站下载数据集,以输入到BLASTn库构建功能。许多用户都熟悉使用数据表中显示的序列,而不是fastA文件。该软件被设计为接受以数据表格式存在的序列,例如用于BLASTn查询的分子标记基因型表。然后将BLASTn比对结果的过滤输出返回到原始表格格式。数据集和基因组的大小,根据BLAST+软件的性能原则,BLAST+软件的详细信息可以在NCBI网站上找到参考下载组件的性能取决于BZz [12]查询服务器的特性,已经注意到,使用BZz查询下载大序列集可能比通过NCBI网站直接下载这些序列集慢。因此,用户可能希望选择直接下载大型数据集的可用选项2.1. 软件构架该软件旨在执行一系列步骤(图1)。1)从数据表中存在的序列创建fastA文件开始,下载用于BLASTn分析的靶序列,从靶序列构建BLASTn数据库,进行BLASTn分析,过滤比对输出结果并将过滤的比对结果返回至表格数据格式。然而,用户可以通过从用户界面选择适当的模块来单独运行软件的部分来独立地执行这些步骤中的任何一个。2.2. 软件功能2.2.1. 数据格式和查询顺序该软件接受格式为禁忌逗号分隔文件(csv)的查询序列。文件中的每一行(在标题之后)都应该表示一个查询序列。与每个序列相关的附加这种灵活的格式允许以大多数基因分型测序数据格式读取序列。omicR通过向每行添加标识符编号(uniqueID)来确保每个序列被唯一地标识,然后创建2个文件用于BLASTn分析:包含uniqueID和查询序列的fastA文件,其次是原始csv输入文件的副本,具有包含uniqueID的额外列。或者,如果查询序列数据不是表格格式,omicR可以直接从用户提供 的 fastA 文件 运行 。当查 询序 列数据 以表 格格式 呈现时 ,BLASTn结果将作为附加列附加到包含唯一ID的输入文件的副本。有关输入文件示例的更多信息,请参阅GitHub和FigShare上的用户指南手册[13]。2.2.2. 下载基因组基 因 组 或 其 他 序 列 组 可 以 使 用 omicR 从 NCBI 网 站(https://www.ncbi.nlm.nih.gov/)此选项使用Biopython模块z[12]。这个模块的工作原理是从NCBI获取数据并将结果作为句柄返回。要下载用于构建BLASTn数据库的数据,请输入所需的RefSeq编号。然后将输入的所有RefSeq登录如果所需的参考序列很大,建议使用Web浏览器将RefSeq组装件作为fna文件(fastA文件的正式3个字母扩展名)下载。如果参考序列fastA文件在本地可用,则可省略2.2.3. 数据库创建为BLASTn创建NCBI数据库是运行此软件的强制步骤此脚本使用NCBI BLAST+中的makeblastdb程序通过图形用户界面创建数据库,因此在运行此软件之前必须安装BLAST+如果数据库之前已经创建,omicR允许用户选择这些文件来运行BLASTn。Berenice Talamantes-Becerra,Jason Carling和Arthur Georges软件X 14(2021)1007023图1.一、 omicR工艺流程图。2.2.4. BLASTn比对和过滤通过向用户提供图形用户界面(GUI)来促进运行BLASTn分析,所述图形用户界面(GUI)包括用于比对序列和过滤结果以获得每个序列的最佳匹配的建议默认参数。BLASTn比对的输出以表格形式产生。以下列将以此格式输出:格塞吉德(查询序列ID),sacc(受试者登录号),stitle(主题标题),qseq(查询序列的对齐部分),sseq(主题序列的对齐部分),nident(相同匹配的数量),不匹配(不匹配数量),pident(相同匹配的百分比),长度(比对长度或序列重叠),评估(期望值),bitscore(bit score),qstart(查询中对齐的开始),qend(查询中的对齐结束),sstart(在主题中开始对齐),发送(受试者中的比对结束)、gapopen(空位开口的数目)、gaps(空位总数)、qlen(查询序列长度)、slen(受试者序列长度)。 请注意,重叠百分比的计算由omicR完成。包含在输出文件中的“对齐重叠”列计算为对齐长度除以查询长度或主题长度(以这两个长度中最短者为准)的比率。在过滤过程中,将删除重叠百分比值低于所选阈值相似物种序列BLASTn分析的推荐过滤参数为:字长11,同一性百分比70%,重叠百分比80%和bitscore 50。如果BLASTn 应用于高度不相似序列的比对,建议选择不连续的megaBLAST,将重叠百分比降低至1%,将bitscore降低至30,以进行较不严格的分析。其他BLAST+参数保持默认设置。BLASTn比对脚本生成5个输出文件:第一个文件具有原始BLASTn输出,没有标头和- out过滤。第二个文件包含一个标头(用于提供每列的标识)和一个附加列(用于计算每个路线的重叠百分比)。这些文件可能包含每个查询序列的多个比对在这种情况下,每个对齐由单个行表示。第二个文件根据运行时选择的阈值进行过滤。只有超过这些阈值的比对才会出现在此文件中。第三个文件只包含为每个查询序列选择的最佳匹配。此文件包含每个查询序列的一行,包括未找到BLASTn命中或BLASTn命中不大于选定阈值的查询序列。如果输入数据仅以fastA格式提供,则这是最终结果。第四个文件与第三个文件相同,不同之处在于它仅包含具有选定阈值的BLASTn命中的序列第五个文件包含来自第三和第四个文件的具有BLASTn命中的所有序列,附加到原始输入csv文件的副本。可以在不重复BLASTn分析的情况下进行额外的过滤。此步骤要求BLASTn输出格式为表格格式,列的顺序与此软件的顺序相同。过滤允许选择重叠百分比和比特分数的更严格的参数。3. 说明性实例omicR工具有一个图形用户界面,便于不熟悉使用终端命令行的人进行BLASTn分析。图2示出了具有对应于可用功能集合的简单且直观的按钮集合的图形用户界面。用户界面中按钮的顺序遵循数据处理方案的顺序,用户可以从头到尾处理其数据只需按照界面中提供的步骤操作即可Berenice Talamantes-Becerra,Jason Carling和Arthur Georges软件X 14(2021)10070244. 影响图二. omicR图形用户界面。工具的可用性在研究中利用DNA测序的学生和研究人员中最常见的分析之一是需要进行DNA序列分析的比对。大多数生物科学研究生没有进行自己的生物信息学分析所需的经验和技能。大学部门有时雇用生物信息学家,但他们无法满足需求,有时根本找不到。这些问题影响到本科生,也影响到缺乏生物信息学分析所需技能的海洋研究人员先前可用的替代方案,例如在NCBI网站上执行BLASTn分析,通常限于使用从数据表到网页的手动复制和粘贴操作的少量查询,从而产生非常不令人满意的结果。omicR工具提供了一种用于执行BLASTn分析的解决方案,具有完整的端到端支持,仅使用图形用户界面中显示的简单功能。 此外,它执行BLASTn比对结果的有效过滤,这是甚至从现有的命令行工具中通常不可用的。获得omicR访问权限的学生发现,在需要时可以自由地执行所有BLASTn分析,而无需寻求有限的可用帮助。5. 结论在开发omicR软件时,我们的主要目标是为没有经验的用户简化BLASTn分析虽然有提供类似替代方案的选项,但OmicR允许用户输入表格数据集,从中提取序列并格式化用于BLASTn比对。进行BLASTn比对后经验不足的用户可能无法认识到使用适用于手头比对任务的标准过滤BLASTn结果的重要性。该软件可用于比对序列数据,如基因分型标记序列,以定位基因组内的SNP标记。该软件的目的是为需要对一个或多个参考进行核苷酸序列BLASTn比对的用户提供一个适用于Windows用户的omicR包可通过GitHub和FigShare下载[13]。BLAST+的最新版本可以在这里下载:https://ftp。ncbi. nlm. 尼海gov/blast/exeutabla st/blast+/LATEST/.最新版本的omicR for Windows可以在这里下载:https://github。com/BTalamantesBecera/omicR_for_Windws.遵循MIABi分析指南的omicR for Windows的其他描述已包含在FigShare中,可以在此处下载:https://doi. 或g/10。6084/m9.我的天啊。一四四三一四六九. v1.由NCBI fur用户创建的BLAST+用户手册用作参考:https://www。ncbi. nlm. 尼海gov/books/NBK279684/.CRediT作者贡献声明Berenice Talamantes-Becerra:概念化,项目管理,方法论,软件,可视化,写作-原始草稿准备和编辑。杰森卡林:概念化,方法,软件,写作-原始草案的翻译和编辑。阿瑟·乔治:概念化,资源,写作-评论编辑。竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作致谢我 们 要 感 谢 我 们 的 测 试 员 Duminda Dissanayake 和 SarahWhiteley 对 这 个 软 件 包 进 行 测 试 并 提 供 反 馈 。 作 者 B 。Talamantes-Becerra感谢国家科学技术委员会(CONACYT)提供奖学金引用[1]Gruber B,Unmack PJ,Berry OF,Georges A. dartr:一个r软件包,用于简化代表性基因组测序生成的SNP数据的分析。Mol Ecol Resour 2018;18:691-9.https://doi.org/10.1111/1755-0998.12745.Berenice Talamantes-Becerra,Jason Carling和Arthur Georges软件X 14(2021)1007025[2] Kumar S,Dudley J.,《基因组学时代生物学家的生物信息学软件》。生物信息学2007;23:1713-7. https://doi.org/10.1093/bioinformatics/btm239.[3] Attwood TK,Blackford S,Brazas MD,Davies A,Schneider MV.从全球角度 看 待 不 断 变 化 的 生 物 信 息 学 和 数 据 科 学 培 训 需 求 。Brief Biofinform2019;20:398-404. https://doi.org/10.1093/bib/bbx100网站。[4] 作者:JH. prfectBLAST:一个独立于平台的便携式前端,用于命令终端BLAST+独立套件。生物技术2012;53:299-300.https://doi.org/10.2144/000113953网站。[5] Du Z,Wu Q,Wang T,Chen D,Huang X,Yang W,et al. BlastGUI:一个基于python的跨平台本地BLAST可视化软件。Mol Inform 2020;39 :1900120. https://doi.org/10.1002/minf.201900120网站。[6] Priyam A,Woodcroft BJ,Rai V,Moghul I,Munagala A,Ter F,et al.Sequenceserver : A modern graphical user interface for custom BLASTdatabases.MolBiolEvol2019;36:2922-4.https://doi.org/10.1093/molbev/msz185.[7] van Rossum G,Drake FL. The Python language reference manual.网络理论有限公司2011年。[8] Altschul SF,Gish W,Miller W,Myers EW,Lipman DJ.基本的局部比对搜索工具。分子生物学杂志1990;215:403-10.https://doi.org/10.1016/S0022-2836(05)80360-2。[9]Talamantes-Becerra B,Carling J. Currito3.1 DNA片段分析软件。2020年,https://doi.org/10.5281/zenodo.3748447。[10][14]杨文,李文.使用复杂性降低基因分型鉴定澳大利亚公立医院的细菌分离株微生物学方法杂志2019;160:11-9。https://doi.org/10.1016/j.mimet.2019.03.016网站。[11][10]张晓刚,张晓刚.使用简化代表性基因分型鉴定嗜热杆菌。BMC Microbiol2020;20:114. https://doi.org/10.1186/s12866-020-01800-z.[12]Cock PJA,Antao T,Chang JT,Chapman BA,Cox CJ,Dalke A,et al.Biopython : freely available python tools for computational molecularbiology and bioinformatics. 生 物 信 息 学 2009;25 : 1422-3. 网 址 : //doi.org/10.1093/bioinformatics/btp163.[13]放大图片作者:J.数据来自:omicR:一种工具以便于序列数据的BLASTn比对。FigShare 2021. http://doi.org/10.6084/m9.figshare.14431469.v1网站。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 最优条件下三次B样条小波边缘检测算子研究
- 深入解析:wav文件格式结构
- JIRA系统配置指南:代理与SSL设置
- 入门必备:电阻电容识别全解析
- U盘制作启动盘:详细教程解决无光驱装系统难题
- Eclipse快捷键大全:提升开发效率的必备秘籍
- C++ Primer Plus中文版:深入学习C++编程必备
- Eclipse常用快捷键汇总与操作指南
- JavaScript作用域解析与面向对象基础
- 软通动力Java笔试题解析
- 自定义标签配置与使用指南
- Android Intent深度解析:组件通信与广播机制
- 增强MyEclipse代码提示功能设置教程
- x86下VMware环境中Openwrt编译与LuCI集成指南
- S3C2440A嵌入式终端电源管理系统设计探讨
- Intel DTCP-IP技术在数字家庭中的内容保护
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功