BERT-BiLSTM-CRF模型提升中文专业术语抽取精度

需积分: 0 115 浏览量更新于2024-08-05 收藏 5.12MB PDF 举报

本文主要探讨了"基于BERT嵌入BiLSTM-CRF模型的中文专业术语抽取研究"这一主题，由吴俊等人在2020年4月发表于《情报学报》。该研究关注的是如何通过利用先进的自然语言处理技术来提高中文专业术语的识别和自动抽取精度，这对于提升专业信息检索的准确性和构建领域知识图谱具有重要意义。文章的核心贡献是提出了一种端到端的模型，它不依赖于人工特征的选择和领域知识的专门输入。模型的基础是谷歌的BERT预训练语言模型，这是一种强大的深度学习工具，能捕捉词语的上下文关系。在此基础上，作者结合了双向长短时记忆网络(BiLSTM)和条件随机场(CRF)，这两种技术被广泛用于序列标注任务，如命名实体识别。BiLSTM有助于捕获文本中的长期依赖性，而CRF则帮助模型更好地处理序列标注中的标签序列决策问题。研究者采用了1278条深度学习语料数据作为实验样本，经过模型的训练和测试，结果显示出显著的性能提升。相比于传统的浅层机器学习方法，如左右熵与互信息算法、word2vec相似词算法，以及单纯的BiLSTM-CRF模型，新模型的F1值达到了92.96%，这表明其在专业术语抽取任务上具有明显的优势。本文不仅介绍了模型的架构和工作原理，还提供了实际应用的详细流程，为中文专业术语库的建设和优化提供了实用的指导。对于那些关注信息技术领域知识挖掘和信息检索的人来说，这篇论文是一个有价值的参考，展示了如何通过深度学习技术来解决中文专业术语抽取这一挑战。

情报学报 2020 年 4 月第 39 卷第 4 期

Journal of the China Society for Scientific and Technical Information, Apr. 2020, 39(4): 409-418

基于 BERT 嵌入 BiLST M-CRF 模型的

中文专业术语抽取研究

吴俊

，程垚

，郝瀚

，艾力亚尔·艾则孜

，刘菲雪

，苏亦坡

（1. 北京邮电大学经济管理学院，北京 100876；2. 深圳暴风智能科技有限公司，北京 100191）

摘要专业术语的识别与自动抽取对于提升专业信息检索精度，构建领域知识图谱发挥着重要基础性作用。为进

一步提升中文专业术语识别的精确率和召回率，提出一种端到端的不依赖人工特征选择和领域知识，基于谷歌 BERT

预训练语言模型及中文预训练字嵌入向量，融合 BiLSTM 和 CRF 的中文专业术语抽取模型。以自建的 127 8 条深度学

习语料数据为实验对象，该模型对术语提取的 F1 值为 92.96%，相对于传统的浅层机器学习模型（如左右熵与互信息

算法、wo rd2vec 相似词算法等）和 BiLSTM-CRF 深度神经网络模型的性能有较为显著的提升。本文也给出了模型应

用的具体流程，能够为中文专业术语库的构建提供实践指南。

关键词 BERT；BiLSTM ；CRF；专业术语抽取

Automatic Extr action of Chinese Terminology Based on BERT

Embed ding and Bi LSTM-CRF Model

Wu Jun

, Cheng Yao

, Hao Han

, Ailiyaer·Aizezi

, Liu Feixue

and Su Yipo

(1. School of Economics and Ma nagement, Beijing University of Posts and Telecommunications, Beijing 100876;

2. Shenzhen Storm Int elligent Technology Co., Ltd, Beijing 100191)

Abstrac t：High quality professional term rec ognit ion and its extraction play an important role in the fields of do main infor‐

mation retrieval a nd knowledge graph building. To improve t he precision and recall rate of terminology recognition, we

propose a Chinese terminology recognition and extraction approach that does not rely on specific domain knowledge or ar‐

tificial features. Using the latest developments in repres entation le arning, this study introduces BERT embedding as a char‐

acter-based pre-trained model and incorporates it with a bi-directional long short-term memory (BiLSTM) and a condition‐

al random field (CRF) to extract deep learni ng terminologies from 1278 annotated datasets collecte d from domain e-books.

The experimental results show that the proposed model reaches 92.96% in F-score a nd outperforms other competing algo‐

rithms, such as left and right entropy, mutual information, a word2vec based similar termi nology rec ognit ion al gorithm,

and a BiLSTM-CRF model. The best pr actices and r elated pro cedures for t he implementation of the proposed mode l are a l‐

so provided to guide its users in its further improvement.

Key words：BERT；BiLSTM；CRF；terminology recognition and ext raction

收稿日期：2019-10-10；修回日期：2019-10-30

基金项目：国家重点研发计划项目“基于模式创新的科技咨询服务平台研发与应用示范”（2018YFB1403600）；北京市社会科学基金一般项

目“基于大数据的北京市共享单车产业监测与发展趋势研究”（17YJB018）。

作者简介：吴俊，男，1971 年生，副教授，硕士生导师，研究方向为文本挖掘与服务创新；程垚，女，1996 年生，硕士研究生，研究方向

为数据分析与服务创新，E- mail：ch engyao@bupt.edu.cn；郝瀚，男，1998 年生，本科生；艾力亚尔·艾则孜，男，1991 年生；

刘菲雪，女，1999 年生，本科生；苏亦坡，女，1999 年生，本科生。

DOI: 10.3772/j.issn.1000-0135.2020.04.007

下载后可阅读完整内容，剩余9页未读，立即下载

shkpwbdkak

粉丝: 40
资源: 299

BERT-BiLSTM-CRF模型提升中文专业术语抽取精度

Bert-BiLSTM-CRF-pytorch-master (1)_python_

基于pytorch的bert-bilstm-crf中文命名实体识别项目源码+文档说明.zip

复制GitHub项目BERT-BiLSMT-CRF-NER-BERT-Bilstm_CRF_NER.zip

基于keras和keras_bert的中文命名实体识别，搭建的网络为bert+bilstm_crf.zip

bert_BiLSTM_crf 计算损失函数

基于BERT-BiLSTM-CRF模型的中文实体识别

毕业设计基于Bert_Position_BiLSTM_Attention_CRF_LSTMDecoder

基于BERT+BiLSTM+CRF模型与新预处理方法的古籍自动标点.docx

基于BERT-BiLSTM-CRF模型的中文命名实体识别任务Tensorflow实现与私有服务器部署设计源码

最新资源