GNAT基因识别工具：从文本映射到NCBI Entrez基因数据库

51 浏览量更新于2024-11-20 收藏 35.68MB GZ 举报

资源摘要信息:"GNAT是一个开源的BioNLP（生物信息文本挖掘）工具，专门用于从自然语言文本中识别并识别基因和蛋白质的名称。该工具能够处理如PubMed/Medline摘要这样的科学文献，并且通过特定的算法消除歧义，以减少错误识别（假阳性）的情况。GNAT的最终目标是将识别到的基因或蛋白名称映射到NCBI（美国国家生物技术信息中心）Entrez基因数据库中的准确条目，为用户提供准确的基因ID。该工具可以辅助研究人员在大量的科学文献中快速定位到相关的基因信息，从而提高研究效率。自从2017年3月以来，GNAT的输出开始在Medline上进行上传，用户可以直接访问特定文件/结果/medline目录下的结果文件，这些文件包含了从Medline文献中提取的基因/蛋白信息。该开源工具的代码库中包含了一系列的文件和目录结构，其中包括： - COPYING.txt：此文件包含了软件的许可证信息，说明了软件的使用条款和版权规定，对于使用、修改和分发软件的用户来说至关重要。 - isgn_properties.xml：可能是一个配置文件，用于定义GNAT软件在处理文本时的一些属性，比如规则集或是用于处理文本的参数等。 - service_properties.xml：类似于isgn_properties.xml，这个文件可能包含了服务层的配置信息，用于设置服务属性，比如访问端口、服务接口等。 - scripts：该目录下可能包含了一系列用于执行特定任务的脚本文件，如启动服务、执行文本分析等。 - lib：通常存放的是软件运行所依赖的库文件，这些库文件可能包括用于文本分析、网络通信、数据库交互等的第三方库。 - banner：可能是一个包含项目名称和版本信息的文件，用于在软件启动时显示，给用户明确的软件信息。 - config：该目录下存放的应该是软件的配置文件，这些文件包含了软件运行时需要读取的各种参数。 - data：这个目录一般用于存储软件运行时所需的数据文件，可能包括词典、语料库、已经训练好的模型等。 - releases：这里应该存放的是软件的发布版本，包括源代码包和可能的二进制文件。 - documentation：目录中存放的是软件的文档资料，这可能包括用户手册、开发者指南、API文档等，用于帮助用户和开发者更好地理解和使用软件。通过这些文件和目录，可以看出GNAT作为开源软件，在设计上遵循了开源项目的标准结构，便于用户和开发者维护和使用。同时，软件的开源特性意味着它具备自由使用、修改和分发的优势，可以推动整个生物信息学领域的技术和知识共享。"

收起资源包目录

GNAT基因识别工具：从文本映射到NCBI Entrez基因数据库（119个子文件）

TestBase.java 3KB

makeListFromGeneInfo.sh 100B

Tagger.java 976B

README.txt 8KB

testDictionaryServer.sh 56B

stopwordexc.list 18B

makeAutomaton.sh 123B

tax_parenttable.txt 9.57MB

DictionaryTaggerTest.java 3KB

2365818.txt 2KB

DictionaryTagger.java 6KB

AnalyzeMentionBoundaries.java 4KB

dragontool.jar 813KB

adv.exc 7KB

startMouseDict.sh 223B

testRemoteNerGenerep.sh 54B

startHumanDict.sh 1KB

noun.exc 906KB

dictionaries.txt 4KB

Mention.java 5KB

String2TokenSequencePipe.java 5KB

rules_cap 31KB

lexicon_all 889KB

Evaluate2Fold.java 10KB

stopDictionaryServer.sh 82B

justAnnotateInline.sh 2KB

readme.txt 3KB

INSTALLATION.txt 7KB

umlserror.list 242B

SimpleTokenizer.java 2KB

ParenthesisPostProcessor.java 3KB

jaxen-1.1.3.jar 218KB

CRFTagger.java 15KB

Token.java 3KB

go2go.object 994KB

adj.index 197KB

strictFPs_2_2_context_isn.object 250KB

test.goldstandard 797B

pubmed2Go.txt 5.92MB

testLinnaeusConnection.sh 46B

CheckTagVariations.java 2KB

makeDictFromList.sh 87B

banner.properties 365B

startFly.sh 223B

MentionTest.java 2KB

createFunction_ExtractValue.sql 839B

mysql-connector.jar 855KB

MentionType.java 2KB

startGeneService.sh 99B

TestModel.java 5KB

Evaluate2Fold.java 10KB

makeMwt.sh 70B

GetTrainingData.java 2KB

Base.java 8KB

test100.sh 288B

verb.exc 167KB

bnc_wordlist.txt 36KB

Sentence.java 15KB

TrainModel.java 3KB

linnaeus-2.0.jar 12.64MB

jdom-1.0.jar 145KB

heptag.jar 338KB

getPubMedIdsForQuery.sh 349B

mallet.jar 2.03MB

NaiveTokenizer.java 2KB

annotateMedline.sh 2KB

Trie.java 3KB

gnat.jar 636KB

adv.index 42KB

TaggedToken.java 4KB

lexDB.serial 306KB

NaiveTokenizerTest.java 3KB

testLocalPipeline.sh 596B

BaseTokenizer.java 5KB

banner.jar 3.22MB

TrieTest.java 3KB

WhitespaceTokenizer.java 2KB

strictFPs_2_2_context_all.object 270KB

startGoMeshTerms.sh 361B

CheckTokenization.java 3KB

nonStrictFPs_2_2_context_all.object 274KB

gene_model_v02.bin 12.16MB

adj.exc 292KB

Tokenizer.java 954B

ConvertSGML2Mention.java 4KB

test.solution 321B

makeAll.sh 162B

medpost.jar 19KB

startGnatService.sh 117B

1374453.txt 2KB

nonStrictFPs_2_2_context_isn.object 266KB

junit-4.4.jar 158KB

justAnnotate.sh 616B

AnalyzeTokens.java 4KB

license.txt 12KB

PostProcessor.java 471B

BannerProperties.java 6KB

verb.index 74KB

Tag.java 3KB

ngramOne.serial 29KB

共 119 条

努力中的懒癌晚期

粉丝: 35
资源: 4716

GNAT基因识别工具：从文本映射到NCBI Entrez基因数据库

VB航空公司管理信息系统 (源代码+系统)(2024it).7z

基于SpringBoot+Vue开发的排课管理系统设计源码

vb图书管理系统（论文+源代码+开题报告+外文翻译+答辩ppt）(20249q).7z

YOLOv11 实现游戏中自动钓鱼

【未发表】基于三角测量拓扑聚合优化器TTAO优化宽度学习BLS实现光伏数据预测算法研究附Matlab代码.rar

毕设-php+mysql学生成绩查询（系统）25.zip

vb客户管理系统设计(论文+源代码+开题报告+可行性报告+答辩PPT)(20241k).7z

【未发表】基于鲸鱼优化算法WOA优化鲁棒极限学习机RELM实现负荷数据回归预测算法研究附Matlab代码.rar

ASP.NET计算机科学与工程系网站毕业设计论文(2024s3).7z

风电电力电子，仿真模拟，可以参考

最新资源