构建面向中文电子病历的NLP关键技术:团队与研究进展
需积分: 49 104 浏览量
更新于2024-07-10
收藏 2.33MB PPT 举报
实体标注语料构建团队专注于面向中文电子病历的自然语言处理(NLP)关键技术研究。该团队成立于2014年4月13日,由哈尔滨工业大学计算机学院的蒋志鹏和关毅领导,版权归属于HIT。他们的工作重点围绕电子病历(EMR)的中文版本——中文电子病历(CEMR),这是一个重要的医疗数据载体,包含了医务人员在医疗活动中产生的半结构化专业描述,如患者的身体状况信息。
在研究中,团队成员包括2名博士生和1名硕士生,他们负责制定和修订标注规范,尤其是实体关系标注。参与团队工作的医生包括哈医大四院神经内科的硕士医生和哈医大二院呼吸内科的博士医生,他们不仅参与了规范的修订,还对标注人员进行了培训,确保标注质量和一致性。
电子病历处理的核心技术之一是高精度的词性标注系统,该团队采用了PCTB(汉语词性标注体系)作为基础,并在此基础上进行迭代修订。他们在构建CEMR句法树库时,注重人机互助,通过医生的专业知识来优化标注规则。例如,在处理“伴有视物模糊”这样的表述时,他们对PCTB词性标注规范进行了筛选、补充和细化,区分“视物”这类词在特定上下文中的具体词性。
为了保证标注质量,团队实施了严格的控制措施,如通过表1展示规范修订前后主要词性歧义项的分布,以及通过表2监控前几次迭代中分词和词性标注的准确率和一致性。这表明他们对PCTB词性标注规范进行了针对性地优化,以适应中文电子病历的特性,如在“持物”、“抗凝”这类术语的切分问题上,团队在实践中不断探索和调整。
实体标注语料构建团队的研究工作涵盖了从词性标注规范的制定、修订,到实际应用中的句法分析、医生参与和质量控制,为中文电子病历的NLP处理提供了一套严谨且实用的关键技术。这些技术对于医疗领域信息的自动理解和挖掘具有重要意义,有助于提高医疗数据的处理效率和准确性。
2022-05-10 上传
点击了解资源详情
点击了解资源详情
2023-04-29 上传
点击了解资源详情
2021-08-31 上传
2021-02-03 上传
ServeRobotics
- 粉丝: 37
- 资源: 2万+
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常