收 稿日期 : 2009-02-13; 修 回日期 : 2009-03-18 基 金项 目: 高 等学 校博士 学科 点专项 科研基 金资 助项目 ( 20020056047)
作 者简介 : 郁雪( 1977- ) , 女 , 天津人 , 讲 师, 博士 , 主 要研究 方向 为信 息 系统 、Web 智 能( yuki@ tju. edu. cn) ; 李 敏 强 ( 1965- ) , 男, 河北 人 , 教授 ,
博导, 主要 研究 方向为 系统 工程与 信息系 统、人工 智能.
一 种 结 合 有 效 降 维 和 K-means
聚 类 的 协 同 过 滤 推 荐 模 型
*
郁 雪, 李敏强
( 天津 大学 管 理学 院 信息管理 与信 息系统 系, 天津 300072)
摘 要: 为 了 克服 “维 灾”所 带 来的 问题 , 提出一 种基 于 主成 分分 析 的维 数约 简 方法 , 并在 转换 后 的低 维 向量 空
间上 进行 K-means 聚类 算法 , 以 减少 目标 用户 的最近 邻搜 索范 围, 代替 在超 高维 空间 上逐 一 寻 找最 近 邻 的过 程 。
实验 结果 证明 了新算 法的 有效 性, 特别在目 标用 户的 历史 评价 信息 较少 的情况 下, 也能有 较好的 预测 精度 。
关键 词: 协 同过 滤; 主成 分分 析; 维 数约 简; K-means聚 类
中图 分类 号: TP311. 13 文献 标志 码: A 文章 编号 : 1001-3695( 2009) 10-3718-03
doi: 10. 3969/j. issn.1001-3695. 2009. 10. 034
Collaborative filtering recommendation model
based on effective dimension reduction and K-means clustering
YU Xue, LI Min-qiang
( Dept. of Information Management & Information System, School of Management, Tianjin University, Tianjin 300072, China)
Abstract: To address the curse of dimensionality, this paper proposed a new hybrid recommendation model which imposed
principal components analysis technique combined with K-means clustering. In the approach, the clusters generated from the
relatively low dimension vector space transformed by PCA step, and then used for neighborhood selection in order to alternate
the exiting K-nearest neighbor searching in highdimensions. The experiment resultsindicate that the proposed model can pro-
duce better prediction quality and higher efficiency. Especially, when the target visitor with few historic information comes, it
performs more robust.
Key words: collaborative filtering; principle components analysis( PCA) ; dimension reduction; K-means clustering
随着互联网技术的日益 发展, 网络 应用的 不断加 入, 信 息
超载目前已经成为迫切需 要解决 的问题。智 能的信 息服务 技
术是目前讨论的热点, 如 高效的 搜索引 擎服务, 主动 获取用 户
需求的个性化推荐技术, 均可以使人们更快更方便地获取所需
资源。其中信息过滤技术可以为用户解决信息过载的问题, 运
用最成功的是协同过滤算法, 目前在电子商务、新闻推荐系统、
e-learning 平台已经广泛使用。
协同过滤算法的主要思路 是利用 与最近 邻的相 似度来 加
权预测当前用户对某一资源的评分, 其优点是对所推荐的资源
类型没有特殊要求, 可以实现跨类别的推荐。但是随着用户和
资源数量不断地膨胀增加, 传统算法面临维数灾难和可扩展性
差等方面的缺陷, 推 荐质量 难以保 证。 为了缓 解上述 的情况,
一些学者提出 model-based 算法, 结合数 据挖 掘技 术与 人工 智
能来改进经 典的 协同 过 滤算 法, 如 贝 叶 斯网 络
[ 1]
、聚类
[ 2 ~4]
、
SVD
[ 5,6]
等。这些算法的共同点是首先利用历史评价矩阵 预先
训练好模型, 当用户到达 时, 根 据与模 型的匹 配情况 来进行 预
测, 算法的可扩展性有了很大的提高。为了缓解高维评分矩阵
的稀疏性, 提高预测精度, 本文 提出一 种基于 主成分 降维技 术
和 K-means 聚类的混合协同 过滤新 算法。算 法首 先用 基于 项
目的评分预测
[ 7, 8]
对原始评价矩阵继续 平滑填 充, 得 到一个 无
缺失值的评分矩阵; 然后运用主成分分析技术对这个无缺失的
评分矩阵进行空间变换, 提 取主成 分因子, 使 降维后 的主成 分
能够代表大部分的评价信息; 在新 的变换空 间上进 行 K-means
聚类, 得到用户评分模式, 并根 据到达 用户的 主成分 空间向 量
所归属的类别确定其最近邻; 最后用最近邻的相似度加权计算
当前用户未评分项目的预 测值。对比 实验证 明了该 算法的 预
测精度较高, 扩展性好。
1 基于 PCA的降维技术
主成分分析 ( PCA) 是一 种 多元 统 计分 析方 法
[ 9]
, 其 主 要
思路是把一组高维相关指标通 过几个 线性组 合转换 为相互 独
立的综合指标的过程, 并通过选取特征值最大的少数 p 个主 成
分来 代替原 m 个指 标所包 含的信 息, 实现降 维的同 时保证 所
损失的信息尽量少。
假设 X = ( X
1
, X
2
, X
3
, …, X
m
) 是 m 维 的随 机 变量, 对 于 n
个观测样本可以得到 n ×m 的数据矩阵
X =
x
11
x
12
… x
1m
x
21
x
22
… x
2m
⁝ ⁝ ⁝
x
n1
x
n2
… x
nm
主成分分析法是将原来的 m维指 标重新线性 组合成一 组
相互独立的综合指标, 其线性变换为
第 26 卷 第 10 期
2009 年 10 月
计 算 机 应 用 研 究
Application Research of Computers
Vol.26 No. 10
Oct. 2009