电力客服术语自动抽取:统计融合与序列标注方法
90 浏览量
更新于2024-08-26
收藏 1.48MB PDF 举报
本文主要探讨了在电力客户服务领域中进行自动术语抽取的问题,针对文本中大量存在的术语变体和嵌套的复合术语,提出了一种统计融合序列标注的方法。首先,文章关注的是“未登录术语部件识别”这一环节,即对那些未被广泛接受或标准化的专业术语部分进行识别。作者采用了改进的互信息C-PMI(Conditional Pointwise Mutual Information)算法,这是一种衡量词语之间关联性的统计量,以及结合边界自由度的统计方法,两者共同作用于序列标注分词算法,以挖掘出可能的术语部件。通过这种方法,研究者提高了前100个词语的识别准确率,达到了85%,显著提升了术语检测的效率。
接着,文章转向“复合术语识别”阶段,这是区分真正术语与普通词组的关键步骤。为了实现这一目标,文中引入了术语度计算方法,这是一种基于统计信息和领域知识的判断标准,能够有效地识别出复合术语的独特性。通过与统计信息的融合,该方法在实际的电力服务领域文本处理中表现出了良好的效果,对于提升文本理解和自动化处理能力具有重要意义。
整个研究工作还得到了国网江苏省电力有限公司科技项目的资助,体现了电力行业对术语挖掘技术的实际应用需求。作者嵇友浪等人的研究不仅理论上有深度,而且实践性强,对电力客服领域的文本分析具有很高的实用价值。研究结果以《Term Extraction in Electric Power Customer Service based on Combination of Statistical Methods and Sequence Labeling》为题发表在2021年第2期的电子设计工程上,被归类于TP3911.1类别,并获得了文献标识码A,文章编号1674-6236(2021)02-0029-05,DOI为10.14022/j.issn1674-6236.2021.02.007。
2022-06-26 上传
2017-11-01 上传
2021-09-09 上传
2023-12-31 上传
2023-02-14 上传
2023-07-12 上传
2023-08-14 上传
2023-07-20 上传
2023-07-15 上传
weixin_38746818
- 粉丝: 7
- 资源: 910
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建