构建面向中文电子病历的NLP关键技术:团队与研究进展

需积分: 49 26 下载量 104 浏览量 更新于2024-07-10 收藏 2.33MB PPT 举报
实体标注语料构建团队专注于面向中文电子病历的自然语言处理(NLP)关键技术研究。该团队成立于2014年4月13日,由哈尔滨工业大学计算机学院的蒋志鹏和关毅领导,版权归属于HIT。他们的工作重点围绕电子病历(EMR)的中文版本——中文电子病历(CEMR),这是一个重要的医疗数据载体,包含了医务人员在医疗活动中产生的半结构化专业描述,如患者的身体状况信息。 在研究中,团队成员包括2名博士生和1名硕士生,他们负责制定和修订标注规范,尤其是实体关系标注。参与团队工作的医生包括哈医大四院神经内科的硕士医生和哈医大二院呼吸内科的博士医生,他们不仅参与了规范的修订,还对标注人员进行了培训,确保标注质量和一致性。 电子病历处理的核心技术之一是高精度的词性标注系统,该团队采用了PCTB(汉语词性标注体系)作为基础,并在此基础上进行迭代修订。他们在构建CEMR句法树库时,注重人机互助,通过医生的专业知识来优化标注规则。例如,在处理“伴有视物模糊”这样的表述时,他们对PCTB词性标注规范进行了筛选、补充和细化,区分“视物”这类词在特定上下文中的具体词性。 为了保证标注质量,团队实施了严格的控制措施,如通过表1展示规范修订前后主要词性歧义项的分布,以及通过表2监控前几次迭代中分词和词性标注的准确率和一致性。这表明他们对PCTB词性标注规范进行了针对性地优化,以适应中文电子病历的特性,如在“持物”、“抗凝”这类术语的切分问题上,团队在实践中不断探索和调整。 实体标注语料构建团队的研究工作涵盖了从词性标注规范的制定、修订,到实际应用中的句法分析、医生参与和质量控制,为中文电子病历的NLP处理提供了一套严谨且实用的关键技术。这些技术对于医疗领域信息的自动理解和挖掘具有重要意义,有助于提高医疗数据的处理效率和准确性。