哈尔滨工业大学构建CEMR句法树库,提升中文电子病历NLP精度
需积分: 49 175 浏览量
更新于2024-07-18
2
收藏 2.33MB PPT 举报
本文档聚焦于"面向中文电子病历的NLP关键技术研究",由哈尔滨工业大学计算机学院的研究人员蒋志鹏和关毅在2014年完成。电子病历(EMR)是医疗服务过程中产生的数字化记录,包括文字、数据和医学报告,而中文电子病历(CEMR)则是针对中文环境的专业描述,尤其关注于医疗大数据的处理。
在CEMR的研究中,文档强调了句法树库的构建作为关键技术之一。构建过程中,研究团队遵循了PCTB(汉语词性标注体系)规范,并进行了迭代修订。他们通过人机互助、医生参与的方式,确保了语法标注的准确性和一致性。例如,在修订规范时,他们特别关注了特定词汇的处理,如"视物"的词性划分,以及针对CEMR特点的术语切分问题,如"持物"和"抗凝"这样的动宾短语是否应被分开标注。
词性标注是NLP中的核心环节,文中提到使用高精度的词性标注系统,通过对比PCTB词性标注规范与面向电子病历的特殊需求,研究人员设计了更符合CEMR特点的标注规则。为了保证标注质量,他们实施了质量控制,通过统计分析了修订前后的主要词性歧义项分布,以及前几次迭代的分词和词性标注的准确率及一致性。
此外,文档还提到了海量的中文电子病历数据量,每天约有800份,每月15000份,每年高达15万份,这表明在处理大规模医疗数据时,高效的NLP技术对于信息管理和挖掘至关重要。
该研究深入探讨了如何利用自然语言处理(NLP)技术来处理中文电子病历,包括制定和优化语法标注规范,提高词性标注的准确性,以及应对医疗大数据带来的挑战,为医疗信息系统的智能化和效率提升提供了有价值的技术支持。
2020-03-14 上传
2020-06-25 上传
点击了解资源详情
点击了解资源详情
点击了解资源详情
2021-10-17 上传
2024-05-12 上传
2024-03-11 上传
stringfo
- 粉丝: 0
- 资源: 4
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常