可用于BioNER的所有数据集
时间: 2023-11-24 09:07:14 浏览: 171
以下是一些可用于生物实体命名识别(BioNER)的数据集:
1. JNLPBA:JNLPBA(日本自然语言处理生物信息学挑战赛)数据集于2004年发布,包含2,000个摘要和37,000个实体标签。该数据集包括四种实体类型:基因、蛋白质、DNA和细胞类型。
2. BioCreative:BioCreative是一个生物信息学挑战赛,其中包含多个生物信息学任务的数据集,包括BioNER。BioCreative I和II都包含了生物摘要和全文文献的数据集。
3. BC5CDR:BC5CDR是一个用于生物医学实体命名识别的数据集,包含1,500个摘要和9,000个实体标签。该数据集包含两种实体类型:化合物和疾病。
4. NCBI Disease:NCBI Disease是一个用于疾病命名识别的数据集,包含593个文献和6,892个实体标签。
5. Linnaeus:Linnaeus是一个用于生物分类学命名识别的数据集,包含9,000个物种名和27,000个实体标签。
6. CRAFT:CRAFT是一个生物医学文本标注数据集,包含97个文献和约67,000个实体标签。
这些数据集可以帮助研究人员训练和评估BioNER模型的性能。