Joumal
of
Computer Applications
计算机应用,
2012
,
32( 4) : 1082 - 1085
ISSN 1001-9081
CODEN JYIIDU
2012-04-01
http://www.joca.cn
文章编号
:1001
-9081(2012)04
-1082
-04
doi:10.3724/SP.J.1087.2012.01082
优化稀疏数据集提高协同过滤推荐系统质量的方法
刘庆鹏,陈明锐
(海南大学信息科学技术学院,海口
5
灯
70ω22
犯
8)
(
*通信作者电子由邮
E
箱
m
阳
rchen
田
en@h
咀阳
a
摘
要:协同过滤是目前个性化才推住荐系统中效采较好的一种推荐技术。由于用户和项目数量的急居蔚剧
'J
增加,使得
反映用户喜好信息的评分矩阵非常稀疏,严重影响了协同过滤扶术的推荐质量。针对这一问题提出了综合均值优化
填充方法,该方法相比较于缺省值法和众数法,考虑到了用户评分尺度问题,同时也不存在众数法中的"多众数"和
"无众数"问题。在同一数据集上,通过使用传统的基于用户的协同过滤算法进行验证,表明此方法可以有效提高推
荐系统的推荐质量。
关键词:推荐系统;协同过滤;均值;众数;信息过载
中图分类号:TP3
0
1.
6;T
凹
91
;T
凹
11
文献标志码
:A
Optimization of sparse
data
se
臼
to
improve quality
of
collaborative filtering systems
LIU
Qing-peng
,
CHEN
Ming-rui'
( College
o/Infom
皿
tion
Science
α nd
Technology,
H
,
α
inan
University,
H
,
α
ikou
H
,
α
inan
570228
, China)
Abstract:
Currently, the collaborative filtering is one of the successful and better personalized recommendation
technologies that have been applied
to
the personalized recommendation systems.
As
the number of users and items increase
dramatically
, the score matrix which reflects the users' preference information is very
sparse
、
The
sparse matrix seriously
affects the recommendation quality of collaborative filtering.
To
solve this problem, this paper presented a comprehensive mean
optimal filling method. Compared
to
the default method and the mode method, this method has
two
advantages. First, the
method takes account of user rating scale issues. Second
, the method does not have the "multiple mode" and the "no mode"
problems. On the same data set
, using traditional user-based collaborative filtering
to
test the effectiveness of the method, and
the
results prove that the new method can improve the recommendation quality of recommendation systems.
Key
words:
recommendation system; collaborative filtering; mean value; mode; information overload
0
引言
由于"信息过载,,
['J
人们在享受足不出户购买商品乐趣
和方便的同时,也被电子商务网站成千上万的商品信息所困
扰,在电子商务网站寻找自己想要购买的商品已经不是一件
简单的事情,这也成为困扰电子商务发展的一大难题。如何
留住客户,如何为每个客户提供个性化的商品信息,电子商务
个性化推荐系统应运而生。但是目前推荐系统的推荐精度不
高,可信度较差,很难满足现代电子商务发展的需求。导致推
荐精度低、可信度差等问题的原因之一是应用于推荐算法的
数据集过于稀疏。
在一般的大型电子商务网站上,商品信息成千上万,但每
个用户真正购买的商品却很少,而用户对己购买商品的评价
就更少,通常在
1%
以下
[2]285"2860
为此本文针对数据集的稀
疏问题提出了一种数据预处理方法,增加了数据集的稠密度,
提高了推荐算法的推荐质量。
1
电子商务推荐系统及其主要推荐技术
电子商务推荐系统的出现为解决"信息过载"问题提供
了一种方案
[3J
.58
为电子商务网站实现"一对一营销"
[4J
的战
略提供了技术支持。电子商务推荐系统的正式定义
[5J
为:
"它是依据电子商务网站向客户提供商品信息,帮助用户决
定应该购买什么商品,模拟销售人员帮助客户完成购买过
程"。在电子商务网站中推荐系统被当作虚拟店员向用户提
供商品信息,根据用户的兴趣爱好帮助用户找到其感兴趣的
商品信息和服务,同时也提高了网站的销售额,因此逐渐成为
电子商务网站的一种重要工具
[2J288
。
电子商务推荐系统的最大特点是能够收集用户感兴趣的
资料,并根据用户的兴趣偏好提供个性化的服务。也就是说
当商品信息和用户的兴趣资料发生变化时,推荐系统给出的
推荐结果也会随之发生变化,这样大大方便了用户对商品信
息的浏览,同时也提高了企业的服务水平。总之,电子商务推
荐系统的作用主要体现在以下几个方面:
1
)将电子商务网站
的浏览者转变为购买者
;2)
提高电子商务网站的交叉销售能
力
;3
)提高客户对电子商务网站的忠诚度
[6J
。
整个电子商务推荐系统由三个部分组成:输入模块
(Input
Module)
、推荐方法
(Recommendation
Method)
和输出模
块
(Output
Module)
。输入模块用于接收用户的兴趣偏好信
息,包括显式兴趣信息和隐式兴趣信息。输出模块将按照输
入的用户偏好信息计算出的结果推荐给用户,推荐的形式包
括
Top-N
推荐和预测评分。推荐方法模块是推荐系统的核心
部分,决定着推荐系统的优劣,它的主要功能是按照推荐算法
收稿日期
:2011
-09
-14:
修回日期
:2011-12-19
。
基金项目:海南慧人公司项目
(HNH
R2
011-1)
。
作者简介:刘庆鹏(1
986
斗,男,山东临沂人,硕士研究生,主要研究方向:软件工程;
陈明锐
(1960
一)
,男,海南澄迈人,教授,主要研究方
向:软件工程。