没有合适的资源?快使用搜索试试~ 我知道了~
首页基于条件随机域CRF模型的文本信息抽取
为了抽取文本中的信息,在分析对比了4种统计建模原型后,选用条件随机域CRY建立抽取模型,提出了一种文本信息抽取的方法。该方法对文本分析后加标注,确定文本特征集,采用有限内存拟牛顿迭代方法L—BFGS算法估计CRF模型参数,根据训练学习得出的模型,实现科研论文数据集头部文本信息的抽取。实验结果表明,使用CRF模型的抽取准确率达到90%以上,远远高于使用HMM模型的抽取准确率。
资源详情
资源评论
资源推荐

- 6094 -
0
引 言
文本信息抽取是指从文本中抽取相关或特定类型的信
息。根据采用的模型不同可分成
3
类:基于词典的抽取模型,
基于规则的抽取模型和基于统计机器学习的抽取模型。
基于统计机器学习的信息抽取模型主要有隐马尔可夫模
型
HMM
,最大熵模型
ME
,最大熵马尔可夫模型
MEMM
和条
件随机域模型
CRF
。
HMM
模型易于建立,不需大规模的词典
集与规则集,适应性好,其改进研究也有很多。文献
[
1
]
使用随
机优化技术动态选择最适合的
HMM
模型结构;文献
[
2
]
将短
语结构分析技术应用到
HMM
信息抽取中;文献
[
3
]
利用主动
学习技术减少训练
HMM
时的标记数据。但
HMM
属于产生
式模型,需要做特征独立假设,导致其不能考虑上下文特征,
与信息抽取目标并不一致。最大熵模型
ME
将序列标注转化
成分类问题,但是由于丧失了序列信息,使其在
IE
中仍然有
继续提升的余地,因此最大熵马尔可夫模型
MEMM
[
4
]
应运而
生。
MEMM
引入了状态之间转移的条件概率,可以任意选择
特征,的确提高了
IE
的性能。然而
MEMM
是一个局部模型,
因其在每一节点都要进行归一化,所以只能找到局部的最优
值,同时带来了长度偏置和标签偏置的问题,即凡是训练语料
中未出现的情况全都忽略掉。所以
Lafferty
提出了一个全局
模型
CRF
[
5
]
,很好解决了前几种
IE
模型的问题。它不在每个
节点进行归一化,而是所有特征进行全局归一化,因此可以得
到全局的最优值。
CRF
是一种新的概率图模型,它具有表达
元素长距离依赖性和交叠性特征的能力,能方便地在模型中
包含领域知识。
1 4
种概率模型的拓扑结构比较
最大熵
ME
模型是对单个的观测值即一个点估计标记的
出现概率,然后可以通过简单的取最大概率值,或者通过
viterbi
算法搜索一个最好的路径。隐马尔科夫
HMM
模型和
最大熵马尔科夫
MEMM
模型都是有向图,两个模型的状态序
列都构成马尔科夫链,其中
HMM
模型是由状态到观测值进
行建模,即箭头是由
Y
指向
X
的,其马尔科夫链是隐藏在观察
序列后面的;而
MEMM
模型中由观测到状态进行建模的,即
箭头是由
X
指向
Y
的,其马尔科夫链是直观的。
CRF
模型是
一个无向图模型,所以该模型不需要马尔科夫假设,它不对每
一个状态的出现可能性进行归一化,而是求整个标记序列出
收稿日期:2007-12-15 E-mail:njeli830326@163.com
作者简介:周晶
(
1983-
)
,女,江苏南京人,硕士研究生,助教,研究方向为信息抽取、自然语言处理等; 吴军华
(
1965-
)
,女,江西人,副
教授,硕士生导师,研究方向为软件工程、自然语言处理等; 陈佳
(
1982-
)
,男,江苏南京人,硕士研究生,研究方向为自然语言处理; 陈
沈焰
(
1984-
)
,男,浙江绍兴人,硕士研究生,研究方向为自然语言处理。
基于条件随机域
CRF
模型的文本信息抽取
周 晶, 吴军华, 陈 佳, 陈沈焰
(
南京工业大学 信息科学与工程学院,江苏 南京 210009
)
摘 要
:为了抽取文本中的信息,在分析对比了
4
种统计建模原型后,选用条件随机域
CRF
建立抽取模型,提出了一种文本
信息抽取的方法。该方法对文本分析后加标注,确定文本特征集,采用有限内存拟牛顿迭代方法
L-BFGS
算法估计
CRF
模型
参数,根据训练学习得出的模型,实现科研论文数据集头部文本信息的抽取。实验结果表明,使用
CRF
模型的抽取准确率达
到
90%
以上,远远高于使用
HMM
模型的抽取准确率。
关键词
:条件随机域
;
文本信息抽取
;
参数估计
; L-BFGS
迭代法
;
特征集
中图法分类号
:
TP391 文献标识码
:
A 文章编号
:
1000-7024
(
2008
)
23-6094-04
Using conditional random fields model for text information extraction
ZHOU Jing, WU Jun-hua, CHEN Jia, CHEN Shen-yan
(
College of Computer Science and Engineering, Nanjing University of Technology, Nanjing 210009, China
)
Abstract
:
In order to extract the information from the text, a method based on conditional random fields
(
CRF
)
statistical model is
presented. Inthis method, the text is labeledtodetermine the features space andone of the limitedmemoryquasi-Newtonmethods called
L-BFGS algorithm is used to estimate the parameter of the CRF model. According to the trained CRF model, various common fields
from the research paper headers are extracted. The experimental result indicated that the precision rate of using CRF model achieved
more than 90%, which is much better than that of HMM model.
Key words
:
conditional random fields; text information extraction; parameter estimation; L-BFGS iterative method; features space
2008 年 12 月
计算机工程与设计
Dec. 2008
第 29 卷 第 23 期
Vol. 29 No. 23 Computer Engineering and Design

















安全验证
文档复制为VIP权益,开通VIP直接复制

评论1