收 稿日期 : 2008-05-17; 修 回日期 : 2008-07-07 基 金项 目: 天 津科 技大学 引进 人才科 研启动 基金 资助项 目( 20080418) ; 天津 市高 等学校
科技发 展基金 计划 资助项 目( 20071303) ; 吉林 省科 技发展 计划资 助项 目( 20070533)
作 者简介 : 王 辉( 1972- ) , 男 , 山 东临 沂人, 副教 授, 博士 , 主 要研 究方向 为 Web 信 息 挖掘 技 术( whui2008@ tust. edu. cn) ; 王 晖昱 ( 1985- ) , 男, 硕
士研究 生, 主要 研究方 向为 Web 信 息挖 掘技术 ; 左万利 ( 1957-) , 男, 吉林 长春人 , 教 授, 博士 , 主 要研 究方向 为操 作系统 、数 据库 、网 络搜索 引擎 等.
观 点 挖 掘 综 述
*
王 辉
1
, 王晖昱
2
, 左万利
3
( 1. 天津 科技 大学 计算 机科 学与 信息 工程 学院 , 天津 300222; 2. 澳 大利亚 卧龙 岗大 学 信息 学院 , 澳大 利 亚 卧
龙岗 2500; 3. 吉林大 学 计算 机科 学与 技术 学院 , 长春 130012)
摘 要: 互 联网 包含 着大 量的 非结 构化文 本信 息, 分析 这些 文本 信息 是非 常重 要的 。观点 挖 掘是 当 前 科研 人 员
研究 的一个 热点 , 因为需 要进 行自 然语 言处 理, 观点 挖掘 非常 具有 挑战 性, 然而 它有 广阔 的应 用 前 景。 比如 各 公
司总 是希 望能 够及时 获取 公众 或者 消 费 者 对于 它 们 产 品 和 服 务 的 评 价 , 以 便 进 一 步 改 进 这些 产 品 和 服 务。 为
此, 对观 点挖 掘的 各方 面进 行了 较详细 的描 述。 其内 容主 要包 括评价 文本 的挖 掘、观点搜索 以及 观点 作弊 。
关键 词: 观 点挖 掘; 情 感分 类; 评 论; 观点搜 索; 观点作弊
中图 分类 号: TP391 文 献标 志码: A 文 章编 号: 1001-3695( 2009) 01-0025-05
Survey on opinion mining
WANG Hui
1
, WANG Hui-yu
2
, ZUO Wan-li
3
( 1. College of Computer Science & Information Engineering, Tianjin University of Science & Technology, Tianjin 300222, China; 2. College of
Information, University of Wollongong, Wollongong New South Wales 2500, Australian; 3. College of Computer Science & Technology, Jilin
University, Changchun 130012, China)
Abstract: The World Wide Web contains a huge amountof information in unstructured texts. Analyzingthese texts is of great
importance. Nowadays, opinion mining is becoming a research hot spot. This task is not only technicallychallenging because
of the need for natural language processing, but also very useful inpractice. For example, businesses always want to find pub-
lic or consumer opinionson theirproducts and services. Once gettingsuch information, they can further improve their products
and services. This paper elaborately interpreted almost all aspects of opinion mining on the Web. Those included aspects were
three mining tasks of evaluative texts, opinion search and opinion spam.
Key words: opinionmining; sentiment classification; review; opinion search; opinion spam
0 引言
互联网包含着大量的非结构化文本信息, 分析这些文本信
息是非常重要的, 其重要程度甚至超过了提取互联网中的结构
化数据。这是因为非结构化的文本包含大量有价值的信息; 这
些文本涵盖了几乎所有的信息类型。
本文仅仅关注在互联网上 进行观 点挖掘 时需要 的技术 与
方法, 因为涉及到自然语 言处理 技术, 观点挖 掘不仅 具有挑 战
性, 而且非常实 用。观点 挖 掘是 当前 科 研人 员 研究 的一 个 热
点, 也是一个难点。举例 来说: 大公司 总是试 图及时 获取公 众
或消费者对它们产品和服务的评价观点; 而潜在的消费者在享
受一种服务或购买一种产品之前, 也想知道当前消费者的这些
评价观点。另外, 观点挖掘可以为网页中放置广告提供有价值
的信息。如果消费者在网页中 对某公 司的产 品给予 了肯定 的
评价, 那么在该网页中放置该公司的产品广告就是一个不错的
主意。
互联网彻底改变了人们表达观点的方式, 用户不仅可以在
商业网站上表达自己对产 品的看 法, 而 且还可 以在论 坛、blogs
等上面张 贴 自 己 的 观 点。上 述 这 种观 点 表 达 方 式 被 称 之 为
user generated content或 user generated media。现在的观点挖 掘
技术可以协助企业和个人高效地获取这些信息。
1 评价文本的挖掘
评价文本( evaluative text) 是 指包 含用 户观 点的 文 档。 评
价文本的三种挖掘任务是:
a) 情感分类。该 方法 将 观点 挖掘 看 做文 本 分类 问题, 它
将评价文本划分为积极的 和消极 的两大 类别。该技 术是基 于
文档层次上 的 ( document-level) , 因 此 它不 能 发现 用户 喜 欢 与
不喜欢的具体细节, 例如用户可能对一款数码相机的外形设计
满意, 但是对其电池的使用寿命却不太满意。
b) 基于特征的 观 点 挖 掘。 该 方 法进 入 到 语 句 层 次 ( sen-
tence-level) , 以便能够 提取 观点 的具 体细节。例 如, 一个 对 象
的哪些方面是消费者喜欢 或者不 喜欢的。当 然这里 的对象 可
以是一个产品、一种服务、一 个人、一 个组织 等。 例如“the bat-
tery life of this camera is too short”这句话, 用户评价的产品特征
是该款相机的“battery life”, 并且 该用户给 出的结 论( 观点 ) 是
第 26 卷 第 1 期
2009 年 1 月
计 算 机 应 用 研 究
Application Research of Computers
Vol. 26 No. 1
Jan. 2009