CCKS 2019 中文电子病历数据集深度解析
版权申诉
5星 · 超过95%的资源 144 浏览量
更新于2024-10-29
3
收藏 1.18MB RAR 举报
资源摘要信息:"CCKS 2019 中文电子病历数据集是一个专门针对中文电子病历的命名实体识别任务的数据集。这个数据集是为了支持自然语言处理技术在医疗领域应用的发展而设计的,特别是在电子病历数据处理方面。在描述中提到,该数据集包括1379份病历样本,每一份病历都由原始文本和实体标注两部分构成。实体类型涵盖了手术、解剖部位、药物、疾病和诊断、影像检查和实验室检验等类别。
数据集的结构设计了包含原始病历文本的"originalText"字段,以及一个"entities"字段,后者包含了对病历文本中的具体实体进行标注的信息。例如,在"entities"字段中可以找到关于疾病和诊断的实体类型,并标识出其在原始文本中的起始位置(start_pos)和结束位置(end_pos),这样就为实体识别任务提供了准确的文本定位。
数据集中的病历样本涉及多种医疗场景,从手术过程、术后恢复、病理分析到治疗方案和药物使用等,反映了患者在医院接受治疗的全过程。这些详细的病历记录不仅为研究者提供了丰富的信息资源,也有助于提升医疗健康领域的自然语言处理技术的实用性和准确性。
此外,为了方便研究者使用,数据集还提供了相关的文件,如任务描述、训练集、测试集、以及标注答案等。具体文件名称列表包括:CCKS2019任务1描述文件v2.docx、subtask1_test_set_with_answer.json、subtask1_training.txt、subtask2_unlabeled.txt、readme-subtask1.txt、subtask2_training_part1.xlsx、subtask2_test.xlsx和subtask2_training_part2.xlsx。这些文件详细记录了任务的要求、数据集的结构、标注规则以及可能用于模型训练和测试的数据格式等重要信息。
在自然语言处理技术中,命名实体识别(NE)是一项关键任务,它涉及到从文本中识别并分类特定的实体,如人名、地点、组织机构、日期、时间表达等。在医疗领域,这一技术尤为重要,因为医疗文本(如电子病历、研究论文、医学报告等)包含大量专业术语和标准化表达。对电子病历数据集进行命名实体识别不仅有助于提升文本信息的组织和检索效率,还能极大地促进健康信息的自动化处理和深度分析,进而辅助临床决策、疾病预测和公共卫生研究。"
2708 浏览量
2024-09-15 上传
148 浏览量
124 浏览量
309 浏览量
2726 浏览量
494 浏览量
小正太浩二
- 粉丝: 335
- 资源: 5941
最新资源
- 高仿百思不得姐demo.zip
- 住宅楼户型设计CAD参考图纸图集(13)
- Java高效排序算法前五位
- 拖动滑块选择数字插件sider.jquery.js
- ClinicManagementSystem:为胸部诊所Borella开发基于Web的信息和管理系统。 提供改善胸部诊所信息收集和管理任务的方法
- 监控别人的行踪
- 互联网
- KeyListPerf.zip
- 网络商城B2C项目商业计划书
- rails_learnings
- 3D 曲线:本书第 7 章中描述的 3D 曲线示例:“CRC 标准曲线和曲面”-matlab开发
- Report-It-Android-Advanced:报告这是一个应用程序,允许其用户报告从垃圾到涂鸦和坑洼的各种问题。 该应用代表了Android高级课程的最终项目(面向程序员的Google Digital Workshop)
- Lojinha-de-lanche:Curso教授Macoratti
- 简单的论坛系统.zip
- awesome-joplin:Jo精选的乔普林主题和工具清单
- CAD墙面浮雕图块装饰素材1(11款)