SVM+BiHMM：基于统计的元数据抽取混合模型

需积分: 0 193 浏览量更新于2024-08-05 1 收藏 656KB PDF 举报

本文主要探讨了"SVM+BiHMM：基于统计方法的元数据抽取混合模型"这一创新性的研究方法。SVM（Support Vector Machine）是一种强大的机器学习算法，特别在分类和回归问题中表现出色，通过构建最优决策边界来实现高精度预测。而BiHMM（Bigram Hidden Markov Model），即双元隐马尔可夫模型，是HMM（Hidden Markov Model）的一种扩展，考虑了单词序列中的二元关联关系以及词语位置信息。在元数据抽取这个领域，传统的文本挖掘任务中，准确提取关键信息，如作者、关键词、出版日期等，对于文档理解和索引至关重要。SVM+BiHMM模型结合了SVM的高效分类能力和BiHMM对上下文依赖性的捕捉，旨在提高元数据抽取的准确性和效率。具体来说，模型首先利用SVM进行初步的特征选择和分类，通过支持向量机的非线性映射，将原始文本转换到高维空间，以便更好地分离不同类别的数据。然后，引入BiHMM来处理这些类别间的连续性和位置信息，通过捕捉相邻词之间的关联模式以及词在句子中的相对位置，进一步细化并修正SVM的预测结果。该混合模型的优势在于，它能够同时考虑局部和全局的文本特征，不仅提高了识别特定元数据元素的能力，还减少了误判的可能性。此外，由于SVM的泛化能力强，模型在面对新数据时依然保持较好的性能，这对于实际应用中的元数据抽取任务来说是非常有价值的。论文作者张铭、银平、邓志鸿和杨冬青来自北京大学信息科学技术学院，他们共同开发并验证了这个模型。他们的研究发表在《软件》杂志上，2008年第19卷第2期，页码为358-368，提供了详细的实验结果和分析。该研究工作还被赋予了DOI：10.3724/SP.J.1001.2008.00358，可供有兴趣的研究者深入阅读和引用。总结来说，SVM+BiHMM是一种创新的统计学方法，它在元数据抽取领域展现了强大的潜力，通过整合两种模型的优势，为自动化文本分析和信息检索提供了一种有效且高效的解决方案。

360

Journal of Software 软件学报 Vol.19, No.2, February 2008

Lafferty 和 McCallum 提出的 CRFs(conditional random fields)是一种用于在给定输入结点值时计算指定输

出结点值的条件概率的无向图模型,它具有表达元素长距离依赖性和交叠性特征的能力,通常用于处理全局性

关联较强的信息抽取工作

[13]

.CRF 模型展现了强于 HMM 很多的提取效果,避免了 HMM 模型中的强相关性假

设,而且避免了像 MEMM 等基于有向图的模型中会出现的偏移(元数据标注偏置)问题.Peng 和 McCallum 将

CRF 应用于论文元数据抽取,取得了 90%以上准确度这样的良好结果

[14]

Han 等人应用 SVM 来抽取元数据,每种元数据被看作一个类,元数据抽取就是对每个文档块进行分类的工

作,总的准确率达到 92.9%

[15]

1.3 本文的元数据抽取工作

虽然基于启发式规则与正则匹配算法的信息抽取技术抽取结果比较精确、高效,但是还有很多不足之处.

毕竟没有任何规则可以涵盖现实世界中的所有情况,总会有规则之外的元数据格式出现,使得模块的元数据抽

取精度降低.规则库也不可能根据元数据抽取的动态结果实时更新,这就使得新出现的元数据抽取规则不能马

上利用到后继的元数据抽取过程中去,因此也缺乏一定的灵活性.

HMM 方法的精度已经比较高了,而且比基于规则的方法更灵活.但是,HMM 方法中的单词泛化做得不够

好,因为 HMM 方法存在以下一些缺点:(1) 对分类起关键作用的只是有少数一些关键词,需要尽量把其他不起

作用的词泛化;(2) HMM 可能把某个短语分割到两个不同的类中,因为 HMM 每次只能发射 1 个单词,但又不能

把整个短语作为一个特征整体发射(很多短语并不是固定搭配).最大熵 MEMM 还是存在全局信息不够丰富的

缺点,而 CRF 是一种更为复杂的全局 HMM 模型,其精度与其他模型相比较高,但训练时间也较多.

单纯采用 SVM 的效果也不是很好,因为 SVM 分类的方法只能根据文本本身的特征,而孤立了各文本块之

间的联系.对元数据抽取来说,各文本块之间的联系(比如各文本块出现的顺序的模式、文本块之间起分隔作用

的词或字符)是非常重要的,其重要程度有时甚至超过了文本块本身的内容.Han 等人

[15]

将上下行的分类信息加

入本行的特征向量中,这正是加入块之间联系信息的一种尝试.

本文提出的 SVM+BiHMM 模型把规则、SVM、HMM 方法结合起来,研究论文元数据抽取.其中,HMM 采

用的是我们改进的 BiHMM(二元 HMM(bigram HMM)),在保持模型结构不变的前提下,通过区分首发概率和状

态内部发射概率,修改了 HMM 发射概率计算模型,有效地克服了传统 HMM 忽略了单词位置信息的缺点,从而

提高了抽取精度.在 SVM+BiHMM 模型中,首先根据训练集分别建立独立的 SVM 模型和 BiHMM 模型,采用

Sigmoid 双弯曲函数把 SVM 分类结果拟合为 BiHMM 模型的单词发射概率,再采用 SVM+BiHMM 复合模型进

行元数据抽取.该混合模型结合了 SVM 的全局信息优势和 BiHMM 的上下文和单词位置信息的优势.

本文采用 Seymore 定义的 15个论文头元数据标签(title,author,pubnum,date,abstract,affiliation,address,email,

degree,note,phone,intro,keyword,web,page)

[9]

本文第 2 节和第 3 节介绍特征的泛化、单独 SVM 模型和 BiHMM 模型的训练.第 4 节利用抽取规则和

SVM+BiHMM 模型进行混合元数据抽取.第 5 节给出实验评测.第 6 节是总结和展望.

2 SVM方法的元数据自动抽取

SVM 是近年来机器学习研究中的一项重大成果.它主要用于解决二值分类的模式识别问题.支持向量机是

在统计学习理论(statistical learning theory,简称 SLT)的基础上发展出来的一种新的通用学习方法,其核心内容

是 Va pn ik 等人在 1992 年~1995 年间提出的

[16]

.支持向量机在众多领域的成功应用表现了它很多优于现有各种

方法的性能.

对于线性可分问题,支持向量机的主要思想是,在向量空间中找到一个决策平面(decision surface)

这个平面能够

“最好”地分割两个类别中的数据点.其中,

wx⋅+

0,b =

是待分类的数据点,向量和常数 b 从线性可分 w

的训练集中学习得到

.假设 {( , )}

Txy=

为训练集,其中,y

∈{±1}是向量

的类别(+1 为正样本,−1 为负样本),

SVM

就是要找到满足以下限制的 w

和 b,使得向量的欧式模||w||最小: w

剩余10页未读，继续阅读

普通网友

粉丝: 23
资源:
319

SVM+BiHMM：基于统计的元数据抽取混合模型

基于SVM+sift+K-means图像分类

基于机器学习SVM+LSTM的电商购物网站商品评价情感分析python源码+数据+训练好的模型(毕业设计).zip

基于Java+SVM+ID3的基于工业大数据的故障诊断模型设计与实现（源码+文档）-Java-CS架构-故障诊断模型.zip

基于PSO优化的SVM数据预测matlab仿真,对比SVM和PSO-SVM+仿真录像

SVM算法解析：基于MATLAB的表情识别实践

提高SVM识别率：基于重复训练的策略

提升SVM分类性能：基于AdaBoost的变权RBF-SVM算法

浙江大学SVM课件：基于统计学习理论的文本分类

HOG+SVM：传统图像处理下的目标检测与识别详解

Python3.5 + sklearn: SVM自动识别字母验证码实战教程

最新资源