中文电子病历语料库构建与信息抽取研究
需积分: 21 116 浏览量
更新于2024-08-07
收藏 979KB PDF 举报
该资源主要涉及的是中文电子病历语料库的构建,以及相关自然语言处理技术在医疗领域的应用,特别是命名实体识别和实体关系抽取。作者们针对中文电子病历的特性,构建了一个包含分词、词性标注、句法分析、实体识别和实体关系抽取的语料库,并制定了相应的标注规范。此外,还提到了医疗领域词典和知识库的重要性,如UMLS在医疗信息检索和标准化中的作用。
在构建中文电子病历语料库的过程中,作者们首先认识到大多数研究集中在英文电子病历上,而中文电子病历的研究相对较少且缺乏公开的语料库。他们从哈尔滨医科大学附属第二医院获取了2000份病历,主要类型为首次病程记录和出院小结,且进行了去隐私处理。为了适应病历文本的独特性,他们需要开发专门的自然语言处理工具,如分词、词性标注和句法分析器。目前,分词和词性标注的语料库已完成,句法分析、实体识别和实体关系抽取的标注工作正在进行。
标注规范方面,他们借鉴了宾州中文树库(PCTB)的标准,并根据中文电子病历的特点制定了分词和词性标注规范。句法分析规范则是基于中文宾州树库,结合实际标注情况和电子病历信息抽取需求进行修订。实体识别任务主要识别疾病、症状、检查和治疗等实体,以及这些实体的修饰关系。实体关系抽取则关注疾病与检查、症状与检查、疾病与治疗、症状与治疗等多类关系。实体标注规范参照I2B2 2010并结合中文电子病历特征进行调整。他们还开发了图形界面的标注工具来协助工作。
医疗领域词典和知识库是这个研究领域不可或缺的部分,特别是UMLS(Unified Medical Language System)在整合不同来源的医学词汇、标准化术语和建立语义关系方面发挥了关键作用。UMLS由超级叙词表、语义网络、专家词典和支撑性软件包组成,旨在解决医疗领域的术语不一致性和变异性问题,从而支持更有效的信息检索和处理。
这篇资源探讨了中文电子病历语料库的构建过程,自然语言处理技术在电子病历信息抽取中的应用,以及医疗领域词典和知识库在标准化医疗信息中的核心地位。这项工作对于推动医疗信息的智能化处理和理解具有重要意义。
2020-03-14 上传
2023-08-01 上传
2021-05-25 上传
2016-05-21 上传
2021-06-18 上传
2021-03-19 上传
2023-09-18 上传
集成电路科普者
- 粉丝: 44
- 资源: 3865
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常