中文电子病历语料库构建与信息抽取研究

需积分: 21 21 下载量 116 浏览量 更新于2024-08-07 收藏 979KB PDF 举报
该资源主要涉及的是中文电子病历语料库的构建,以及相关自然语言处理技术在医疗领域的应用,特别是命名实体识别和实体关系抽取。作者们针对中文电子病历的特性,构建了一个包含分词、词性标注、句法分析、实体识别和实体关系抽取的语料库,并制定了相应的标注规范。此外,还提到了医疗领域词典和知识库的重要性,如UMLS在医疗信息检索和标准化中的作用。 在构建中文电子病历语料库的过程中,作者们首先认识到大多数研究集中在英文电子病历上,而中文电子病历的研究相对较少且缺乏公开的语料库。他们从哈尔滨医科大学附属第二医院获取了2000份病历,主要类型为首次病程记录和出院小结,且进行了去隐私处理。为了适应病历文本的独特性,他们需要开发专门的自然语言处理工具,如分词、词性标注和句法分析器。目前,分词和词性标注的语料库已完成,句法分析、实体识别和实体关系抽取的标注工作正在进行。 标注规范方面,他们借鉴了宾州中文树库(PCTB)的标准,并根据中文电子病历的特点制定了分词和词性标注规范。句法分析规范则是基于中文宾州树库,结合实际标注情况和电子病历信息抽取需求进行修订。实体识别任务主要识别疾病、症状、检查和治疗等实体,以及这些实体的修饰关系。实体关系抽取则关注疾病与检查、症状与检查、疾病与治疗、症状与治疗等多类关系。实体标注规范参照I2B2 2010并结合中文电子病历特征进行调整。他们还开发了图形界面的标注工具来协助工作。 医疗领域词典和知识库是这个研究领域不可或缺的部分,特别是UMLS(Unified Medical Language System)在整合不同来源的医学词汇、标准化术语和建立语义关系方面发挥了关键作用。UMLS由超级叙词表、语义网络、专家词典和支撑性软件包组成,旨在解决医疗领域的术语不一致性和变异性问题,从而支持更有效的信息检索和处理。 这篇资源探讨了中文电子病历语料库的构建过程,自然语言处理技术在电子病历信息抽取中的应用,以及医疗领域词典和知识库在标准化医疗信息中的核心地位。这项工作对于推动医疗信息的智能化处理和理解具有重要意义。