中文电子病历NLP关键技术:CEMR研究与挑战

需积分: 49 26 下载量 35 浏览量 更新于2024-07-10 收藏 2.33MB PPT 举报
该研究专注于"面向中文电子病历的NLP关键技术研究",发表于2014年4月13日,由哈尔滨工业大学计算机学院的蒋志鹏和关毅合作完成,邮箱地址为xyf-3456@163.com。电子病历(EMR)是医疗服务过程中产生的数字化记录,包括文字、符号等多种形式,它不仅是医疗活动的文档,也是医疗大数据的重要组成部分。据统计,每天大约有800份,每月15000份,每年更是达到15万份的规模。 研究的重点集中在中文电子病历(CEMR),这种半结构化的记录方式对专业描述了患者的健康状况。CEMR的处理需要高精度的自然语言处理(NLP)技术,其中一项关键技术是句法树库的构建。研究人员遵循PCTB(汉语词性标注标注体系)进行语法标注规范的制定,目标是实现人机互助,医生参与,通过一致性评价不断迭代修订。这个过程涉及筛选、补充和细化PCTB词性标注,如针对"视物模糊"这样的例子,调整"视物"的词性处理,以及在CEMR特有的上下文中判断像"持物"和"抗凝"这类术语是否应该进行词性切分。 为了确保标注质量,研究团队进行了细致的控制,通过比较修订前后的词性歧义项分布,以及前几次迭代的分词和词性标注准确率及一致性,以评估和改进规范。此外,他们还开发了一套面向电子病历的词性标注规范,这有助于提高NLP系统在处理CEMR时的准确性,从而更好地支持医疗信息的抽取、表示和维护。 这项研究对于提升中文电子病历的处理能力,尤其是在NLP领域的应用具有重要意义,为医疗大数据的管理和分析提供了强有力的技术支撑。