使用排序支持向量机进行博客文章摘要抽取

需积分: 0 82 浏览量更新于2024-08-05 收藏 269KB PDF 举报

"由排序支持向量机抽取博客文章的摘要1" 本文主要介绍了一种基于平滑型排序支持向量机（Rank-sSVM）的博客文章摘要抽取方法。在信息检索和自然语言处理领域，自动摘要技术是重要的研究方向之一，其目标是从长篇文本中提取关键信息，形成简明的概述。博客作为一种广泛传播的信息源，其摘要的自动生成具有很大的实际应用价值。排序支持向量机（Rank-SVM）是一种特殊的机器学习模型，常用于解决排序问题，如信息检索中的相关性排序。在这个方法中，作者提出了使用Rank-sSVM来适应评论者的需求和博客文集的特性。具体操作流程如下： 1. 数据预处理：首先，从博客文章中人工选取重要句子作为摘要，这些句子被标记为摘要语句集（SST），其余句子组成非摘要语句集（SNS）。这一步是训练Rank-sSVM的基础。 2. 特征提取：接着，对每篇文章的句子生成特征向量，包括14个特征，这些特征可能涵盖标签、评论和其他能够反映博客文章特性的信息。有效的特征对于模型的学习和预测性能至关重要。 3. Rank-sSVM学习：利用人工标注的摘要语句集和非摘要语句集，训练Rank-sSVM模型。Rank-sSVM的目标是学习到一个函数，可以对语句进行排序，使得摘要语句排在非摘要语句之前。 4. 摘要生成：训练完成后，将Rank-sSVM应用于新的博客文章，对文章中的所有句子进行排序。按照排序结果，选取排名靠前的若干语句作为文章的自动摘要。实验结果显示，这种方法在特定的中文博客数据集上表现出良好的摘要效果。通过这种方式生成的摘要能够有效地反映出评论者的意见，同时也符合博客文集的特性，提高了摘要的实用性。总结来说，这篇文章探讨了一种基于Rank-sSVM的博客文章摘要生成技术，通过巧妙地结合人工标注和机器学习，实现了对博客内容的高效提炼。这种方法对于处理大量博客数据，提供快速概览，以及提升用户阅读体验具有积极意义。同时，它也展示了排序学习和支持向量机在信息抽取领域的应用潜力。

第 39 卷第 4 期电子科技大学学报 Vol.39 No.4

2010年7月 Journal of University of Electronic Science and Technology of China Jul. 2010

由排序支持向量机抽取博客文章的摘要

何海江

，陈姝

(1. 长沙学院计算机系长沙 410003; 2. 中南大学信息科学与工程学院长沙 410083)

【摘要】提出了一种用平滑型排序支持向量机(Rank-sSVM)抽取博客文章摘要的方法。使用该排序算法抽取的摘要，反映

了评论者的意见和博客文集的特性。自动摘要过程中，首先经人工从文章选择重要句子标记为摘要，作为训练对象；再由机

器生成表示文章语句的特征集，共14个特征，包含标签、评论等博客文章独有的信息；最后用Rank-sSVM学习人工摘要后，

将文章所有句子排序，选取最靠前的若干语句构成摘要。该方法在一个中文博客数据集上取得良好效果。

关键词博客; 评论; 信息检索; 排序学习; 支持向量机; 摘要

中图分类号 TN391 文献标识码 A doi:10.3969/j.issn.1001-0548.2010.04.026

Extraction of Blog Post Summarization by Using Ranking SVM

HE Hai-jiang

and

CHEN Shu

(1. Department of Computer Science and Technology, Changsha University Changsha 410003;

2. School of Information Science and Engineering, Central South University Changsha 410083)

Abstract A new approach is presented for blog post summarization based on ranking smooth support vector

machine (Rank-sSVM). The use of ranking algorithm for this task allows one to adapt summaries to the commenter

needs and to the blog corpus characteristics. To use Rank-sSVM, firstly, key sentences are extracted manually from

blog posts as training samples. Feature set representing post sentences, which consist of 14 features including tag,

comment and other unique blog information, is generated by machine. After all the sentences are ranked by the

ranking model, the most important ones in front are selected to summarize the post. The experimental results show

that the proposed method has good performance on Chinese blog datasets.

Key words blog; comment; information retrieval; learning to rank; support vector machine;

summarization

收稿日期：

2008 − 11 − 28; 修回日期：2009 − 07 − 23

基金项目：湖南省教育厅科学研究项目(09c123)

作者简介：何海江(1970 − )，副教授，主要从事Web挖掘、机器学习方面的研究.

博客(blog)属Web2.0的重要应用，是一种传播信

息和思想的新媒体。博客作者发表文章(post)，用以

记录日常生活，向外发布信息，讨论新闻事件及人

物。随着博客社区的繁荣，出现了许多新的应用形

式，如专门的博客搜索引擎(百度BlogSearch

、

Technorati等)和可阅读博客的手机等小型移动设备。

自动产生博客文章摘要使读者可以先浏览博客

的摘要部分，再评估文章是否值得通篇阅读；或者

只阅读摘要，克服小尺寸屏幕的限制。

可将博客文章视为一系列句子的组合。每条语

句不仅包括段落号和句子号等结构特征、关键词密

度等语义特征；还包括标签(tag)、评论(comment)等

博客特征。与普通文章不同，作者在博客文章上常

常添加标签，用以改善Web检索质量

[1]

。另外，读者

被鼓励在阅读博客文章后发表评论，与作者或其他

读者交流。博客网站会将评论多的文章列为热门，

搜索引擎也将评论作为博客评级的重要指标。实验

结果表明，阅读评论后人们会更改文章的摘要

[2]

。

本文提出了一种平滑型排序支持向量机

(Rank-sSVM)作为自动摘要的排序学习算法。依据结

构风险最小化原则，Rank-sSVM将排序问题转换成

两类别分类问题；分类优化目标变成无约束的数学

规划问题，并具有唯一最优解；使目标函数二次可

微，用平滑多项式逼近(1−x)

；最后由Newton-

YUAN

[3-4]

算法直接求解。依据排序学习算法，可将

语句按照重要程度从大到小排列，选取最靠前的若

干句子形成博客文章的摘要。

1 相关研究工作

总的来说，摘要可分为概括型摘要和抽取型摘

要。无论是单文档，还是多文档，抽取型摘要受到

大多数研究者的关注，本文亦属于抽取型摘要研究。

下载后可阅读完整内容，剩余4页未读，立即下载

城北伯庸

粉丝: 35
资源: 315

使用排序支持向量机进行博客文章摘要抽取

支持向量机模型_支持向量机_相关向量机_支持向量机模型_

支持向量机Matlab工具箱

支持向量机实例

2、 支持向量机包含哪几种模型？ A、 硬间隔支持向量机 B、 软间隔支持向量机 C、 非线性支持向量机

双支持向量机与孪生支持向量机有什么区别

简述硬间隔支持向量机和软间隔支持向量机的最大区别

线性支持向量机和非线性支持向量机

线性支持向量机和非线性支持向量机的原理

支持向量回归VS支持向量机

2， 请介绍线性支持向量机与非线性支持向量机的主要区别

最新资源

2、支持向量机包含哪几种模型？ A、硬间隔支持向量机 B、软间隔支持向量机 C、非线性支持向量机

2，请介绍线性支持向量机与非线性支持向量机的主要区别