哈尔滨工业大学构建CEMR句法树库,提升中文电子病历NLP精度

需积分: 49 37 下载量 175 浏览量 更新于2024-07-18 2 收藏 2.33MB PPT 举报
本文档聚焦于"面向中文电子病历的NLP关键技术研究",由哈尔滨工业大学计算机学院的研究人员蒋志鹏和关毅在2014年完成。电子病历(EMR)是医疗服务过程中产生的数字化记录,包括文字、数据和医学报告,而中文电子病历(CEMR)则是针对中文环境的专业描述,尤其关注于医疗大数据的处理。 在CEMR的研究中,文档强调了句法树库的构建作为关键技术之一。构建过程中,研究团队遵循了PCTB(汉语词性标注体系)规范,并进行了迭代修订。他们通过人机互助、医生参与的方式,确保了语法标注的准确性和一致性。例如,在修订规范时,他们特别关注了特定词汇的处理,如"视物"的词性划分,以及针对CEMR特点的术语切分问题,如"持物"和"抗凝"这样的动宾短语是否应被分开标注。 词性标注是NLP中的核心环节,文中提到使用高精度的词性标注系统,通过对比PCTB词性标注规范与面向电子病历的特殊需求,研究人员设计了更符合CEMR特点的标注规则。为了保证标注质量,他们实施了质量控制,通过统计分析了修订前后的主要词性歧义项分布,以及前几次迭代的分词和词性标注的准确率及一致性。 此外,文档还提到了海量的中文电子病历数据量,每天约有800份,每月15000份,每年高达15万份,这表明在处理大规模医疗数据时,高效的NLP技术对于信息管理和挖掘至关重要。 该研究深入探讨了如何利用自然语言处理(NLP)技术来处理中文电子病历,包括制定和优化语法标注规范,提高词性标注的准确性,以及应对医疗大数据带来的挑战,为医疗信息系统的智能化和效率提升提供了有价值的技术支持。