书书书
小 型 微 型 计 算 机 系 统
Journal of Chinese Computer Systems
圆园员苑 年 圆 月 第 圆 期
Vol. 猿愿 No. 圆 圆园员苑
摇 摇 收稿日期:圆园员缘员圆园源摇 收修改稿日期:圆园员远园猿圆员摇 基金项目:国家自然科学基金项目(远员源苑圆猿源缘,远员缘远圆园怨园,远员缘远圆园怨员)资助;云南省应用基础
研究计划项目(
圆园员源FA园圆猿,圆园员源FA园圆愿)资助;云南省中青年学术和技术带头人后备人才培养计划项目(圆园员圆HB园园源)资助;云南大学创新团队培育计
划项目(
XT源员圆园员员)资助;云南大学青年英才培育计划、中青年骨干教师培养计划项目(XT源员圆园园猿)资助. 摇 作者简介:邓日升,男,员怨愿怨 年生,硕士研
究生,研究方向为海量数据分析与服务;岳摇 昆(通信作者),男,员怨苑怨 年生,博士,教授,博士生导师,研究方向为海量数据分析与服务;武摇 浩,男,
员怨苑怨 年生,博士,副教授,研究方向为服务计算、知识发现与推荐系统;刘惟一,男,员怨缘园 年生,教授,博士生导师,研究方向为数据与知识工程.
面向商品评分预测的隐变量模型构建与推理
邓日升,岳摇 昆,武摇 浩,刘惟一
(云南大学 信息学院,昆明 远缘园缘园源)
Email:kyue岳 ynu. edu. cn
摘摇 要:用户偏好是决定用户对商品评分的隐含变量,以构建包含用户偏好的隐变量模型、描述评分数据中相关属性间任意形
式依赖关系及其不确定性为主要目标,以贝叶斯网作为各属性间依赖关系及其不确定性表示的基本框架,由商品评分数据构建
不含隐变量的商品评分模型,提出基于半团结构向其中插入描述用户偏好的隐变量的方法,从而构建包含用户偏好的隐变量模
型,并给出基于
EM 算法的隐变量模型参数估计方法,进而提出隐变量模型的概率推理算法和相应的商品评分预测方法. 建立
在 MovieLens 和 BookCrossing 数据上的实验结果表明,本文提出的隐变量模型构建和相应的评分预测方法是有效的.
关 键 词:在线商品评分;贝叶斯网;隐变量模型;用户偏好;评分预测
中图分类号:TP员愿员摇 摇 摇 摇 摇 文献标识码:A摇 摇 摇 摇 摇 摇 文 章 编 号:员园园园员圆圆园(圆园员苑)园圆园猿缘圆园缘
悦燥灶泽贼则怎糟贼蚤灶早 葬灶凿 陨灶枣藻则则蚤灶早 蕴葬贼藻灶贼 灾葬则蚤葬遭造藻 酝燥凿藻造 枣燥则 孕则藻凿蚤糟贼蚤灶早 孕则燥凿怎糟贼 砸葬贼蚤灶早泽
DENG Risheng,YUE Kun,WU Hao,LIU Weiyi
(School of Information Science and Engineering,Yunnan University,Kunming 远缘园缘园源,China)
粤遭泽贼则葬糟贼:User preference is a latent variable that determines online product ratings. This paper is to construct the latent variable model
with user preference,and describe arbitrary dependence relationships as well as the corresponding uncertainties in rating data by adop
ting Bayesian network as the preliminary framework. In this paper
,we start from the rating data and construct the product rating model
without latent variables at first. Then,we give the method for inserting latent variables based the semiclique structure,so the model
can be constructed to describe user preference by the inserted a latent variable. Following
,we give the EMalgorithm based method for
estimating parameters in the latent variable model. Finally,we propose the algorithm for probabilistic inferences of the latent variable
model and the method for predicting user ratings. Experimental results on the MovieLens and BookCrossing datasets show that our
method is effective.
运藻赠 憎燥则凿泽:online product ratings;Bayesian network;latent variable model;user preference;rating prediction
员摇 引摇 言
基于 Web 的在线购物和社交网站的出现和普及给用户
带来了大量的商品信息,并为用户提供了在线评分的平台,用
户对商家提供的商品、书籍、电影、音乐、服务等项目发表在线
评论和评分,数值型的评分是用户对商品的整体评价
[员,圆]
. 评
分数据包含用户和商品的特征属性、以及用户对商品的评分,
例如电影评分数据集包括用户性别、年 龄、职 业 和 评 分值
等
[猿]
. 准确地预测用户对商品的评分,对电子商务应用中的
个性化推送、社区网站主题商品排序和广告推荐等领域具有
重要意义
[源]
. 评分数据反映了用户偏好
[圆]
,而用户偏好也决
定了用户对商品的评分值,是决定用户对商品评分的隐变
量
[缘]
,根据用户偏好准确预测用户对商品的评分,具有重要
意义. 评分数据中各属性之间、以及描述用户偏好的隐变量与
评分数据集中各属性之间的依赖关系,都具有不确定性,对商
品评分预测及前述相关应用具有重要影响
. 从用户对商品的
评分数据集出发,用隐变量描述用户偏好,以预测用户对商品
的评分为研究目标,本文构建描述评分数据集中各相关属性
和隐变量之间依赖关系及其不确定性的模型,并研究相应的
评分预测机制
. 评分预测是近年来研究的热点,研究人员提出
了不同的方法. 例如,协同过滤作为传统的评分预测算法,通
过用户间或商品间的相似性矩阵预测评分,但存在冷启动和
稀疏性等不足之处
[远]
;通过给定的模型,如朴素贝叶斯(Naive
Bayes
)模型,来预测用户评分
[苑,愿]
,但给定的模型不能描述评
分属性之间存在的依赖关系. 贝叶 斯网( BN,Bayesian Net
work
)作为一种重要的概率图模型,被广泛用于智能分析和
推断决策等领域,是不确定性知识表示和推理的基本框
架
[怨]
,它克服了以朴素贝叶斯模型为代表的一类模型不能客
观描述评分数据属性间依赖关系的不足,为多个变量之间任
意形式的依赖关系及其不确定性的建模提供了参考,因此,本
文以
BN 作为商品评分预测的模型基础.
相对于用户的性别、年龄、职业、和评分值等,用户偏好是
决定用户对商品评分的隐变量;含隐变量的 BN 被称为隐变
量模型(
Latent Variable Model)
[怨]
,是近年来人工智能领域研