中文电子病历语料库构建与信息抽取研究
需积分: 21 83 浏览量
更新于2024-08-07
收藏 979KB PDF 举报
该资源主要涉及的是中文电子病历语料库的构建,以及相关自然语言处理技术在医疗领域的应用,特别是命名实体识别和实体关系抽取。作者们针对中文电子病历的特性,构建了一个包含分词、词性标注、句法分析、实体识别和实体关系抽取的语料库,并制定了相应的标注规范。此外,还提到了医疗领域词典和知识库的重要性,如UMLS在医疗信息检索和标准化中的作用。
在构建中文电子病历语料库的过程中,作者们首先认识到大多数研究集中在英文电子病历上,而中文电子病历的研究相对较少且缺乏公开的语料库。他们从哈尔滨医科大学附属第二医院获取了2000份病历,主要类型为首次病程记录和出院小结,且进行了去隐私处理。为了适应病历文本的独特性,他们需要开发专门的自然语言处理工具,如分词、词性标注和句法分析器。目前,分词和词性标注的语料库已完成,句法分析、实体识别和实体关系抽取的标注工作正在进行。
标注规范方面,他们借鉴了宾州中文树库(PCTB)的标准,并根据中文电子病历的特点制定了分词和词性标注规范。句法分析规范则是基于中文宾州树库,结合实际标注情况和电子病历信息抽取需求进行修订。实体识别任务主要识别疾病、症状、检查和治疗等实体,以及这些实体的修饰关系。实体关系抽取则关注疾病与检查、症状与检查、疾病与治疗、症状与治疗等多类关系。实体标注规范参照I2B2 2010并结合中文电子病历特征进行调整。他们还开发了图形界面的标注工具来协助工作。
医疗领域词典和知识库是这个研究领域不可或缺的部分,特别是UMLS(Unified Medical Language System)在整合不同来源的医学词汇、标准化术语和建立语义关系方面发挥了关键作用。UMLS由超级叙词表、语义网络、专家词典和支撑性软件包组成,旨在解决医疗领域的术语不一致性和变异性问题,从而支持更有效的信息检索和处理。
这篇资源探讨了中文电子病历语料库的构建过程,自然语言处理技术在电子病历信息抽取中的应用,以及医疗领域词典和知识库在标准化医疗信息中的核心地位。这项工作对于推动医疗信息的智能化处理和理解具有重要意义。
2020-03-14 上传
2023-08-01 上传
2021-05-25 上传
2021-06-18 上传
2023-09-18 上传
2023-09-18 上传
点击了解资源详情
集成电路科普者
- 粉丝: 44
- 资源: 3860
最新资源
- 经典的Struts2 in Action.pdf完全版
- 使用VMWARE安装苹果(MAC)操作系统和VMACTOOL及上网详细教程
- 2009年软件设计师考试大纲
- Java Message Service.pdf
- ESX VMware backup
- QC教程。想要学习QC的理想帮手,使你快速入门
- 从硬盘安装windows 7
- ENVI 用户指南与上机操作
- MyEclipse6整合
- EJB是sun的服务器端组件模型,最大的用处是部署分布式应用程序
- vision_dev_module(NI视觉开发模块).pdf
- eclipse电子书
- halcon说明文件
- 嵌入式C语言精华(pdf)
- ARM入门文章详细介绍RAM入门的基本
- 局域网共享故障的分析与排除word文档。doc