没有合适的资源?快使用搜索试试~ 我知道了~
首页电子病历命名实体识别和实体关系抽取研究综述-杨锦锋
电子病历命名实体识别和实体关系抽取研究综述-杨锦锋
需积分: 0 368 浏览量
更新于2023-05-30
评论 1
收藏 1.29MB PDF 举报
电子病历 (Electronic medical records, EMR) 产生于临床治疗过程, 其中命名实体和实体关系反映了患者健康状况, 包含了大量与患者健康状况密切相关的医疗知识, 因而对它们的识别和抽取是信息抽取研究在医疗领域的重要扩展. 本文首 先讨论了电子病历文本的语言特点和结构特点,
资源详情
资源评论
资源推荐

第 40 卷 第 8 期 自 动 化 学 报 Vol. 40, No. 8
2014 年 8 月 ACTA AUTOMATICA SINICA August, 2014
电子病历命名实体识别和实体关系抽取研究综述
杨锦锋
1
于秋滨
2
关 毅
1
蒋志鹏
1
摘 要 电子病历 (Electronic medical records, EMR) 产生于临床治疗过程, 其中命名实体和实体关系反映了患者健康状况,
包含了大量与患者健康状况密切相关的医疗知识, 因而对它们的识别和抽取是信息抽取研究在医疗领域的重要扩展. 本文首
先讨论了电子病历文本的语言特点和结构特点, 然后在梳理了命名实体识别和实体关系抽取研究一般思路的基础上, 分析了
电子病历命名实体识别、实体修饰识别和实体关系抽取研究的具体任务和对应任务的主要研究方法. 本文还介绍了相关的共
享评测任务和标注语料库以及医疗领域几个重要的词典和知识库等资源. 最后对这一研究领域仍需解决的问题和未来的发展
方向作了展望.
关键词 电子病历, 命名实体识别, 实体关系抽取, 共享评测任务
引用格式 杨锦锋, 于秋滨, 关毅, 蒋志鹏. 电子病历命名实体识别和实体关系抽取研究综述. 自动化学报, 2014, 40(8):
1537−1562
DOI 10.3724/SP.J.1004.2014.01537
An Overview of Research on Electronic Medical Record Oriented Named Entity
Recognition and Entity Relation Extraction
YANG Jin-Feng
1
YU Qiu-Bin
2
GUAN Yi
1
JIANG Zhi-Peng
1
Abstract Electronic medical records (EMRs) are generated in the process of clinical treatments. Named entities and
entity relations in EMRs reflect patients
0
health conditions and represent patients
0
p ersonalized medical knowledge. Conse-
quently, named entity recognition and entity relation extraction on EMR are important expansion of information extraction
in the medical domain. In this paper, the language characteristic and structure features of EMR narratives are firstly
discussed, and then general methods for named entity recognition and relation extraction are sketched out. Furthermore,
this paper introduces and analyzes the tasks and corresponding methods for named entity recognition, entity assertion
recognition and relation extraction of EMR in detail. Related shared evaluation tasks and annotated corpora as well
as several important dictionaries and knowledge bases are also introduced. Finally, problems to be handled and future
research directions are proposed.
Key words Electronic medical record (EMR), named entity recognition, entity relation extraction, shared task
Citation Yang Jin-Feng, Yu Qiu-Bin, Guan Yi, Jiang Zhi-Peng. An overview of research on electronic medical record
oriented named entity recognition and entity relation extraction. Acta Automatica Sinica, 2014, 40(8): 1537−1562
电子病历 (Electronic medical record, EMR)
是指医务人员在医疗活动过程中, 使用医疗机构信
息系统生成的文字、符号、图表、图形、数据、影像等
数字化信息, 并能实现存储、管理、传输和重现的医
疗记录
[1]
, 是由医务人员撰写面向患者个体描述医疗
活动的记录. 通过分析电子病历能挖掘出大量与患
收稿日期 2013-08-30 录用日期 2013-12-18
Manuscript received August 30, 2013; accepted December 18,
2013
国家自然科学基金 (60975077) 资助
Supported by National Natural Science Foundation of China
(60975077)
本文责任编委 宗成庆
Recommended by Associate Editor ZONG Cheng-Qing
1. 哈尔滨工业大学语言技术中心网络智能研究室 哈尔滨 150001 2.
哈尔滨医科大学附属第二医院病案室 哈尔滨 150086
1. Web Intelligence Laboratory, Language Technology Center,
Harbin Institute of Technology, Harbin 150001 2. Medical
Record Room, The 2nd Affiliated Hospital of Harbin Medical
University, Harbin 150086
者密切相关的医疗知识, 这种认识早已获得共识
[2]
.
比如, 某患者电子病历中, “头 CT 检查显示腔隙性
脑梗死”. 在这句话中, “头 CT” 是检查手段, “腔隙
性脑梗死” 是疾病, 这二者在电子病历信息抽取研
究中被称为命名实体, 这两个实体间的关系是 “头
CT” 证实了 “腔隙性脑梗死” 的发生, 或者说 “腔隙
性脑梗死” 可以通过 “头 CT” 这种检查手段得到确
认. 从电子病历里自动挖掘这些知识就是要自动识
别电子病历文本中与患者健康密切相关的各类命名
实体以及实体间的关系
[3]
, 电子病历命名实体识别和
实体关系抽取是电子病历信息抽取研究的主要内容,
该研究在医学信息学 (Medical informatics) 中用于
临床决策支持 (Clinical decision support, CDS) 研
究服务于医疗专业人员
[4]
, 同时在用户健康信息学
(Consumer health informatics) 中支持用户健康状
况建 模和个性化医疗健 康信息服务研究服务于普通

1538 自 动 化 学 报 40 卷
患者和用户
[5]
. 中文领域的临床决策支持系统早在
上世纪 90 年代初就已经展开了研究
[6]
.
电子病历主要有两类, 即门诊病历和住院病历.
门诊病历通常较短, 包含信息较少, 也缺乏对患者治
疗情况的跟踪, 因而, 电子病历信息抽取和文本挖掘
研究大多关注于住院病历. 如不明确说明, 本文所指
的电子病历均指住院病历. 电子病历并不是完全结
构化的数据, 还包括一些自由文本等复杂的无结构
数据. 这种文本信息方便表达概念以及事件等, 但是
同时也为搜索、统计分析等研究制造了障碍, 因此,
自然语言处理、信息抽取等相关技术在电子病历上
的分析、挖掘中将发挥重要的作用. 自然语言处理
应用于电子病历文本, 也叫医疗语言处理 (Medical
language processing, MLP)
[7]
, 其基础研究包括词
性标注、分词、句子边界识别、句法分析、命名实体
识别和实体关系抽取、共指消解等. 命名实体及其
关系是电子病历医疗知识的主要载体, 同时命名实
体识别和实体关系识别也是电子病历文本挖掘和信
息抽取研究的主要内容.
由于电子病历是患者治疗经过的记录, 电子病
历文本包含了大量的实体, 且实体类型较多, 主要
有四大类实体. 1) 首先, 电子病历记录了患者、医
生以及医疗机构的名称、编号等隐私信息 (Private
health information, PHI). 在开放领域, 这些信息
是普通的命名实体, 但是在医疗领域, 这些信息是患
者和医生的隐私信息. 所以, 电子病历对外发布的先
决条件就是去隐私化信息 (De-identification)
[8]
. 实
现去隐私化信息首先要识别 PHI, 用替代信息替换
病历中的 PHI, 以保持病历文本的完整性
[9]
. 2) 电
子病历记录的是治疗经过, 因而疾病、症状、检查和
治疗这四类与疾病治疗密切相关的实体是电子病历
中数量最多的实体 (疾病和症状也被合并为医疗问
题). 比如 “高血压”、“脑梗死” 是疾病, “眼震”、“言
语笨拙” 是症状, “头 CT”、“彩超” 是检查, “抗血
小板凝聚”、“胰岛素” 是治疗. 为了表达的一致性和
准确性, 这四类实体通常有固定的表达, 作为专业术
语使用. 为了使这些专业术语得到共识, 很多机构维
护了大量的专业术语以及术语的变体. 在使用和维
护过程中, 这些术语又被称作概念. 我们从信息抽取
的角度, 把这些概念视为命名实体 (后续章节提到的
实体等同于概念). 电子病历中的医疗问题, 也就是
疾病和症状, 还存在着一些重要修饰成分 (或者叫上
下文特征), 比如, “不排除缺血性疾病” 和 “双侧眼
球运动自如, 无眼震”. 在这两个例子中, “缺血性疾
病” 不是确定发生的, “眼震” 是肯定排除的. 如果
不识别这些修饰成分, 抽取出来的医疗知识将谬以
千里. 所以电子病历命名实体识别研究还需要识别
疾病和症状的修饰. 3) 在治疗类实体中, 药物是重
要的治疗信息, 不仅涉及药物名称 (包括通用名、商
品名), 还包括剂量、施治方式、施治频次、施治持续
时间等信息, 这些实体通常视为药物的属性. 4) 时
间信息也是一类重要的实体数据. 因为患者的治疗
和病情的发展有时序性, 所以在病历中很多表示事
件的实体都与时间相关. 时间在病历中的表达方式
没有固定的形式, 比如 “于 2012-06-08 11: 24 步入
病室”、“于入院前 5 小时无明显诱因出现右侧肢体
麻木”. 电子病历命名实体识别就是要识别出病历文
本中这些表达患者医疗信息或者健康信息的实体.
电子病历中实体之间不是孤立存在的, 相互之
间存在着一定的关系, 实体关系正是医疗知识的主
要体现. 电子病历中的实体关系主要有三大类. 1)
概念之间的关系: 电子病历中概念间关系包括疾病
和症状的关系、疾病和疾病的关系、疾病和检查的
关系以及疾病和治疗的关系. 这些关系是最重要的
实体关系, 根据这些关系可以构造患者健康状况的
简明摘要, 不仅体现了患者的健康状况, 而且体现了
医疗知识. 2) 概念间的等价关系: 有些概念可能是
其他概念的等价表达, 只是形式不同而已, 这种关系
的识别是共指消解的主要研究内容, 通常作为命名
实体识别的后续任务. 3) 概念和时间的关系: 表示事
件的概念通常具有时间属性, 即什么时间发生的. 比
如观察到的症状、所做的检查、给予的治疗都有明
确的时间点. 抽取概念和时间的关系就是还原概念
的时间属性信息, 这些时间信息用于建立事件发生
的时间线, 据此跟踪患者的健康状况、查找病因、分
析治疗的有效性和副作用等.
图 1 总结了电子病历中常见的实体类型和实体
关系类型. 这些实体和实体关系从不同角度反映了
电子病历中的医疗知识和患者健康状况. 在进行电
子病历信息抽取研究时, 不同类型的实体和实体关
系抽取作为不同的研究任务展开. 隐私信息的识别
通常包含于去隐私化研究任务中
[9]
; 药品信息识别
需要抽取药品的诸多属性数据, 因而也作为一个独
立的信息抽取任务
[10]
, 类似的多元组属性信息抽取
研究也见于疾病信息的抽取
[11]
. 概念的识别和概
念关系的抽取类似于开放领域实体识别和实体关系
抽取, 是电子病历信息抽取研究的主要任务
[12]
. 医
疗问题的修饰识别是电子病历信息抽取研究中独
有的任务, 该任务由早期识别症状的否认信息发展
而来
[13]
, 现在已成为电子病历信息抽取研究的重要
任务
[12]
. 共指消解关注实体间等价关系的识别, 虽
然是处理一类特殊的实体关系, 但一直是信息抽取
研究的重要任务, 在电子病历信息抽取中也作为独
立的研究任务受到越来越多的关注
[14−16]
. 时间信
息是病历中特殊的实体, 体现了健康状况的时间维
度, 时间信息识别研究在开放领域受到了极大的关
注
[17−18]
, 在医疗领域也作为一个独立的研究任务吸
引起了研究者的兴趣
[19−20]
.

8 期 杨锦锋等: 电子病历命名实体识别和实体关系抽取研究综述 1539
图 1 电子病历实体类型和实体关系类型
Fig. 1 Entity types and entity relation types in EMR
在上述各类任务中, 概念 (医疗问题、检查、治
疗) 的识别、医疗问题的修饰和概念间关系的抽取
是电子病历信息抽取研究的三个核心任务. 概念、修
饰和概念间关系这三类知识体现了以医疗问题为中
心的思想, 修饰体现了医疗问题和患者的关系, 检查
是为了证实医疗问题, 治疗是为了改善医疗问题. 根
据这三类知识, 我们可以把电子病历中抽取出来的
实体按照实体关系组织起来, 系统地表示以医疗问
题、治疗和检查为主体的医疗知识, 而且这些医疗
知识与患者密切相关, 具有个性化特点. 鉴于此, 本
文主要关注命名实体识别、疾病或症状的修饰识别、
实体关系抽取这三类研究. 这三个任务围绕命名实
体展开 (如图 2 所示), 涵盖了电子病历信息抽取的
基本任务.
电子病历是重要的医疗临床数据, 不仅包含了
医生的专业知识, 而且与患者的健康状况密切相关.
由于电子病历这种双重特性, 电子病历命名实体和
实体关系识别研究成为命名实体识别研究在医疗领
域的重要拓展, 同时也是电子病历信息抽取的重要
研究内容, 该课题的研究吸引了国内外越来越多研
究者的关注. 本文在接下来的部分首先分析电子病
历文本的重要特点, 概述命名实体识别和实体关系
抽取的任务和研究思路, 然后分别详细阐述电子病
历命名实体研究的三个任务以及各自的研究方法,
接着介绍国内外主流的评测会议以及现有的资源建
设情况, 最后对本文工作进行总结并展望电子病历
命名实体和实体关系识别研究的发展趋势.
1 电子病历文本特点
电子病历是患者在医疗机构就诊时产生的医疗
记录. 电子病历数据的产生可以说是全民参与的结
果, 每天都会产生大量的病历. 电子病历数据的形式
主要有表格、自由文本、图像这三种, 自由文本形式
的非结构化数据是电子病历中非常重要的数据, 主
要有出院小结、病程记录、主诉、现病史、病历小结、
医患沟通记录、医患协议、超声报告. 出院小结是对
患者治疗过程和治疗效果的总结, 病程记录主要是
阶段性记录患者临床表现、 经历的检查和治疗等医

1540 自 动 化 学 报 40 卷
图 2 电子病历命名实体识别和实体关系抽取研究的三个任务
Fig. 2 The three tasks of named entity recognition and relation extraction on EMR
疗活动过程; 主诉、现病史和病历小结内容都包含在
出院小结和病程记录里; 超声报告只涉及单项检查,
检查结果也包含在病程记录里; 医患沟通是医务人
员就治疗的风险告知患者及家属, 医患协议主要是
患者应遵守的纪律等. 出院小结和病程记录是电子
病历中最重要的两类自由文本, 是电子病历信息抽
取和文本挖掘关注的重点. 这些自由文本由医务人
员撰写, 包含了患者的症状描述、检查结果的分析、
做出的诊断、以及给予的诊疗方案, 是医务人员专业
医疗知识的集中体现, 也是患者个性化健康信息的
集中体现. 这些文本数据的输入便捷性、可理解性
和呈现方式是电子病历研究的热点问题
[21]
. 输入便
捷性是指输入方式应该方便医生输入电子病历内容,
尽量减少医生的负担, 包括医疗语言尽可能简洁、使
用受控术语和模板等; 可理解性是指病历文本表达
的意思准确无误并且在不同医疗机构之间可交换阅
读; 良好的呈现方式指电子病历应该便于医务人员
阅读, 快速找到重要的信息. 正因为这三个问题, 与
传统医学文献中的文本相比, 电子病历中的文本不
管是结构还是语言, 都具有一些新特点.
1.1 大数据特性
电子病历系统是信息化技术在医疗领域的重要
应用, 是临床使用最早也是最主要的一个工具
[2]
. 由
于国外发达国家信息化起步较早, 国外很多医疗机
构早在上个世纪 70 年代就已经开始实施电子病历
系统来管理和存储临床医疗数据, 积累了大量的电
子病历. 以印第安纳大学医学中心的电子病历系统
(Regenstrief medical record system, RMRS) 为例,
该系统是最早的电子病历系统之一
[22]
, 始建于 1972
年, 目前该电子病历系统为 1 300 000 个患者提供服
务, 已产生 15 000 000 份电子病历.
2009 年国务院颁布了 “关于深化医药卫生体制
改革的意见”, 2010 年卫生部出台了《电子病历基本
规范 (试行)》和《电子病历系统功能规范 (试行)》等
规范. 在国家一系列政策的推动下, 电子病历系统在
各级医院广泛实施. 我国医疗机构数量庞大, 患者的
就医需求也与日俱增, 门诊病历和住院病历急剧增
长. 仅以哈尔滨医科大学附属第二医院病案室给出
的近 10 年住院病历统计数据为例 (如图 3 所示), 就
可了解电子病历数据量的庞大.
图 3 哈尔滨医科大学附属第二医院住院病历统计数据
Fig. 3 Statistics of in-patient records of The 2nd
Affiliated Hospital of Harbin Medical University
海量的电子病历数据堪称医疗领域的大数据,
是座知识的宝库, 蕴含了大量的医疗知识和患者的
健康信息
[2]
. 在当前大数据研究浪潮下, 电子病历信
息抽取和文本挖掘越来越吸引人们的目光. 这些研
究将为临床智能支持、循证医学研究和疾病监控等
提供支持, 从而提高医疗服务质量.
1.2 结构特点
病程记录和出院小结是电子病历中最重要的两
类自由文本, 电子病历信息抽取也主要关注这两类
文本. 下面主要介绍病程记录和出院小结的结构特
点.
1.2.1 病程记录结构特点
病 程 记 录 的 撰 写 从 传 统 面 向 来 源 的 组 织 方

8 期 杨锦锋等: 电子病历命名实体识别和实体关系抽取研究综述 1541
式, 演 化 出 面 向 时间的 组 织 方 式 (Time-oriented
medical record, TOMR)
[23]
和面向问题的组织方
式 (Problem-oriented medical record, POMR)
[24]
,
POMR 已成为病程记录方式的事实标准
[25]
. 这两
种方式各有利弊
[26]
, 在当下的电子病历撰写中混合
使用, 即以医疗问题为中心组织内容, 同时按照时间
轴展开记录每个时间点的医疗问题情况. 这种记录
方式有助于对医疗问题的治疗情况和进展进行跟踪
和分析. 面向问题的病程记录普遍采用 SOAP (Sub-
jective, objective, assessment, plan) 格式撰写, 首
先描述各种症状、体征以及重要检查结果, 然后对这
些证据进行综合评估并做出诊断, 最后给出相应的
诊疗计划. 以匹兹堡大学医学中心的病程记录样本
为例
[27]
, 我们抽取的病程记录结构如图 4 所示.
图 4 匹兹堡大学医学中心的病程记录结构
Fig. 4 The structure of a progress note from University
of Pittsburgh Medical Center
国内电子病历的病程记录主要有三类: 首次病
程记录、日常病程记录 (也叫查房记录)、上级医师
查房记录
[28]
. 首次病程记录详细记录了患者的病例
特点、诊断和诊疗计划, 下面分析首次病程记录文本
特点. 图 5 是哈尔滨医科大学附属第二医院首次病
程记录. 图 5 所示的首次病程记录按照内容可以划
分为主诉、既往史、主观症状、客观检查、评估和诊
断以及诊疗计划. 总体看来, 首次病程记录基本按照
SOAP 格式组织病历. 从文本结构形式看, 首次病
程记录明显地分为几个章节 (Section), 每一个章节
以名称 (Section name) 和冒号表示出来. 每个部分
的内容以条目的形式罗列, 总体表现出明显的半结
构化形式.
在内容方面, 每一个章节表达的内容都是独立
的, 每章节的名称指示了该部分要表达的内容. 主诉
部分描述患者此次就诊的主要症状; 病例特点详细
描述患者的既往史、症状和体征, 以及与疾病密切
相关的辅助检查; 临床初步诊断则直接表示患者可
能所患疾病 (如果这部分是待查, 可结合后续病程记
录或出院小结获取); 鉴别诊断部分描述的是与患者
所患疾病相关但被排除的疾病及其主要区别性症状;
诊疗计划描述施加于患者的治疗措施. 可以看出, 病
程记录是按照症状、疾病、检查和治疗这四大要素
安排各部分内容. 虽然各部分都表达独立的内容, 但
各部分之间存在着密切的联系. 病历特点中描述的
症状和体征可以认为是临床初步诊断疾病的可能症
状和体征, 辅助检查是为了确证疾病的诊断, 诊疗计
划是针对疾病展开的施治措施. 因此, 在对首次病程
记录进行信息抽取时, 可以针对每部分的特点, 设计
适合该部分的抽取任务和抽取算法, 同时, 结合各部
分之间的联系, 便于展开关系抽取的研究.
病程记录是治疗过程的记录, 症状、诊断、检查
和治疗可能随着医疗活动的进展而发生改变, 更多
的检查和疾病的关系、治疗和疾病的关系、治疗和
症状的关系需要从后续的病程记录挖掘. 因此可以
考虑把每一段病程记录作为挖掘的文档, 根据时间
先后顺序, 整合产生完整的医疗知识.
1.2.2 出院小结结构特点
出院小结是指经治医师对患者此次住院期间诊
疗情况的总结. 出院小结内容涵盖诊疗活动的各个
方面, 各方面的内容分开描述, 形成明显的结构特征.
以 I2B2 (Informatics for integrating biology and
the bedside) 2010 评测中使用的出院小结为例, 与
病程记录结构类似, 出院小结各部分按照章节 (Sec-
tion) 描述, 每一个章节以章节名称 (Section name)
开始, 包含的章节 主要有 入院日期、出院日期、
主要诊断、主要治疗、现病史、既往史、入院药物、过
敏史、个人史、体格检查、住院治疗过程、出院医嘱、
出院药物等.
国内电子病历出院小结与国外病历中的出院小
结在结构上基本相同, 主要包括入院日期、出院日
期、入院情况、入院诊断、诊疗经过、出院诊断、出
院情况、出院医嘱、医师签名等
[28]
. 哈尔滨医科大
学附属第二医院出院小结基本遵循国家规范, 完整
包含了各章节的内容. 以该医院出院小结为例, 诊断
部分说明患者确诊的疾病; 入院情况描述患者入院
时的各种重要的临床表现以及重要检查结果; 出院
情况描述患者出院时各种重要的临床表现以及重要
检查结果, 可以和入院情况对比, 分析出不良症状得
到治愈或缓解; 诊疗经过部分简单列出了治疗措施;
治疗效果明确表示本次治疗是有效还是无效; 出院
医嘱简单列出后续的治疗措施和注意事项. 和病程
记录的结构形式类似, 出院小结各章节描述内容单
一, 可根据不同章节制定不同的抽取策略; 同时, 每
个章节之间的联系可用于关系抽取.
剩余25页未读,继续阅读











莫问VIVA
- 粉丝: 13
- 资源: 122
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助

会员权益专享
安全验证
文档复制为VIP权益,开通VIP直接复制

评论0