协同过滤推荐系统中的相似性度量：综合评析与实验对比

155 浏览量更新于2024-06-16 收藏 3.08MB PDF 举报

本文主要探讨了基于协同过滤的推荐系统的相似性度量，特别是针对用户和项目之间的依赖强度的量化方法。该研究发表在沙特国王大学学报上，由Fethi Fkih，来自计算机科学系和计算机学院的作者共同完成，同时涵盖了Qassim大学和MARS研究实验室的参与。协同过滤（CF）是一种广泛应用在推荐系统中的技术，它依据用户的历史行为和偏好来预测他们可能感兴趣的新项目。推荐系统的核心在于构建用户之间的相似性，因为相似用户的行为模式可以作为预测新兴趣的基础。因此，选取合适的相似性度量至关重要，本文对此进行了深入的综合评述和实验比较。首先，文章分为两大部分：基于用户的协同过滤（User-based CF）和基于项目的协同过滤（Item-based CF）。在用户级的CF中，研究了邻居选择策略，即如何确定与目标用户最相似的一组用户，以及评分预测，即如何利用这些相似用户的评分来估计目标用户对未知项目的喜好。在项目级的CF中，相似性计算则聚焦于项目间的相似性，如使用余弦相似度，这是一种常见的向量空间模型，通过计算两个项目特征向量的夹角来衡量它们的相似度。接下来，文章详细介绍了几种常用的相似性度量方法，包括但不限于： 1. **余弦相似度**：这是一种基于角度的度量，它反映了两个用户或项目向量的线性相关性，值域通常在-1到1之间，越接近1表示越相似。 2. **ITR（Item-to-User Similarity）**：一种针对项目到用户的度量，可能是通过对项目特征的加权平均来计算用户之间的相似性。 3. **IPWR（Item-to-Project Weighted Rating）**：针对项目间的相似性度量，可能考虑了用户对不同项目的评价权重。 4. **AMI（Average Mutual Information）**：一种信息论方法，衡量的是两个项目被同一用户评价时的相互信息。实验部分在MovieLens100k、MovieLens1M和Jester三个标准数据集上进行了评估，结果显示ITR和IPWR在用户级推荐中表现较好，特别是ITR在MovieLens100k和1M数据集上的均方误差（MAE）分别为0.786和0.731，而在项目级推荐中，AMI表现出最佳性能，MAE分别为0.745、0.724和3.281在Jester数据集上。值得注意的是，该研究使用了CCBY-NC-ND许可证，意味着作者和爱思唯尔公司已经同意将文章开放获取，允许他人在遵循特定条件下复制、修改和分享内容。这篇文章为理解和优化基于协同过滤的推荐系统提供了有价值的参考，特别是在相似性度量的选择和评估上。

展开

弗基

赫

沙特国王大学学报

7649

是

的

吉

鲁伊

测井

;

例如，2009年）。为此，用户被呈现为他对项目集合的评级的向量，并

且项目被呈现为由用户集合对其评级的向量。MI公式表示核心-

两个用户u和

之间的关系如下（11）：

3.6. Spearman

秩序相关系数

斯皮尔曼相关性（Spearman，2010）评估两个变量之间的单调关

系。在单调关系中，如果第一个变量的值改变，则值

;

第

页

。

;

p r ;r

你好

。

第二个变量的变化也是如此，但没有恒定的速率（不是线性的）。斯

皮尔曼等级顺序相关系数，命名为

可以取一个值，

1和1.它与人类的行为

其中，I

和I

分别

是由用户u和v评级的项目集合。此外，

rui

表示用户u对项

目i的评级，

rvj

表示用户

对项目j

的

评级。当量（12）提供相关值

在两个项目

和

之间。

Spearman

相关性

，我们使用以下公式：（

）对于用户和

Eq.

（

）物品。

;

埃斯比略

山口

2012

年

月

日

好的

。

我我

Rank

u2U

乌

伊

河

qu;v1-

-1

其中，

和

分别

是用户评定的项目

和

的

集合。

Rui

表示用户

对项目

表示分配给项目j的评级用户V。调整

互信息（AMI）是用于计算统计相关性的MI的变体（ Vinh等人，

2009），则返回一个介于0和1之间的值。如果由于统计变量之间的偶然

性而发生一致性效应，则将通过AMI（偶然性调整）进行校正。下式

（13）计算调整后的相互

其中q=u;v=表示两个用户u和v之间的斯皮尔曼等级相关性;I

表示由u和

v共同评级的项目集合;r

和r

分别表示用户u和v的评级。

关于议程项目i，Rankr

和Rankr

表示r

和r

的秩

分别在向量u和v中。n

表示数字 u和v之间的共同评级。

下午

Rank

u i

Ran k

;

两个用户u和v之间的信息（项目i和j相同）。

i j

-1

ð17Þ

阿密乌

密

乌

MaxH

;

ð13Þ

其中

=i;j=表示两个之间的斯皮尔曼秩相关性

项目i和j;U

表示对两个项目i

都进行

评级的用户集合

其中

，

是

和

的熵

;

是

两个用户u和

之间的预期互信息

（Vinh等人， 2009年）。

3.5.

调整后的兰德指数

为了使用Rand指数（RI）测量，我们假设用户u和v（或项目i和j）

是评级的集群。在我们的上下文中，用户被表示为他对项目集的评级的

聚类，而项目被认为是其评级的聚类

用户的集合。为了定义Rand指数的公式，我们必须定义以下3个参数

（Rand，1971）：

是在两个集群中分组在一起的评级对的数量。

是在两个聚类中没有分组在一起的评级对的数量。

●

N是两个聚类中的评级总数。

和j;

rui

和

ruj

分别表示用户u对项目i和j的评级。秩

rui

和

秩

ruj

分别表示向量u中

rui

和

ruj

的秩;n表示i和j之间的公共等级的数量。

3.7.

肯德尔

作为Spearmans返回的值范围从1（一个变量的秩增加，另一个变量

的秩减少）到1（两个变量的秩一起增加），而0表示两个变量之间没有

关系。该测量主要基于对一致对（以相同方式排序）和不一致对（以不

同方式排序）的计数（Conover，1971; Koh和Owen，2000）。用于计

算两个评级向量之间的关联强度的肯德尔τ被定义为（等式2 ）。

（18））：

然后，

Rand

指数被定义如下（等式

）。

）：

ð18Þ

ð14Þ

其中c是一致对的数量，d是不一致对的数量。

其中

是一组

个

评级中的无序对的数量。

调整后的兰德指数（

ARI

）是对兰德指数的机会版本进行了校正

（

Rand

，

1971; Vinh

等人，

2009; Sinnott

等人，

2016

年）。它返

回一个介于

（不存在相关性）和

（相同聚类）之间的值公式定义

在

Eq. 15

（项目

和

相同）：

3.8.

Jaccard

Jaccard指数（Jaccard，1912），用J表示，计算两个集合的相似性

和多样性。两个有限集之间的Jaccard系数定义为交集的基数除以并集

的基数。也就是说，它测量了两个集合之间共享的元素数量与两个集合

中元素总数J索引需要

阿里

，

你

最大

值

;

ð15Þ

0和1之间的值，索引越接近1，两个向量越相似。下式（19）计算两个

向量u和

的Jaccard指数，而u和

可以是用户（评级集合

其中

是

两

个聚类

之间

的

预期

Rand

索引

u和v（Vinh等人， 2009年）。

由同一用户分配）或项目（分配给同一项目的一组评级）。

●

i2I

j 2I

弗基

赫

沙特国王大学学报

7650

;

；

ð Þ

;

（

）

我

是

一

个

乌

伊

河

J u

[

ð19Þ

MS i j

天

天i

;

ð27Þ

3.9.

欧氏距离

从用户u到用户v（或从项目i到项目j）的欧几里德距离（欧几里

得空间中两个用户（或项目）之间的线段

空间实际上，每个用户都由其相对于项基的笛卡尔坐标表示（对于相对

于用户基表示的项来说也是一样）。

3.11.

切比雪夫距离

两个向量之间的切比雪夫距离是它们沿着任何坐标维度的差异中

的最大值（

Abello

等人，

2002

年）。用户可以通过其相对于项目基

础的坐标来建模（对于项目来说也是一样）。因此，

Cheby-

提供两个用户

和

之间的

shev

距离（

Chebyshe

如下（公式

）：

并且两个用户（或两个项目）之间的距离是其坐标的数值差的绝对值

的

Chebyshe

;

2018年12月28日

表示两个用户u和

之间的相关性的欧几里德距离（d）公式如下

（20）：

其中，

表示由

和

rui

和

rvi

分别表示用户u和v的评级，

D UV

i2I

项目

一

。公式（29）给出了

其中，

表示由

和

Chebysh e

;

ma x

rui

和

rvi

分别

表示用户u和v对项目i的评级。公式（21）提供了两个项目i

和j之间的欧几里德距离。

其中，U

表示对项目i和

项目

j都进行评级的用户集合;r

和r

分别表示用

户u对项目i和

项目

j的评级。用户和项目的相似性度量，使用Chebyshev

距离，定义如下（公式30和31）：

;

。

ﬃﬃ

ﬃﬃﬃ

ﬃﬃﬃ ﬃ

ﬃﬃ

ﬃ

ﬃﬃ

ﬃ ﬃ

ð21Þ

Chu

130

Chebyshe

;

其中，U

表示对项目i和

项目

j都进行评级的用户集合;r

和r

分别表示用

户u对项目i和

项目

j的评级。欧几里得距离应该被归一化以成为相似性度

量。公式（22）和（23）分别定义用户和项目的欧几里德相似性（ES

ES u

天

;

ES i j

天

;

3.10.

曼哈顿距离

两个向量之间的曼哈顿距离，也称为城市街区和出租车，等于向

量之间距离的一范数（

Szabo

，

2015

）。为了使这种度量适应

域，我们必须通过用户相对于项目基础的笛卡尔坐标来表示用户（对

于项目来说也是一样的

两个用户

和

之间的曼哈顿距离（

）如下

（公式

）：

Chebyshe v

Chebyshe

v Chebyshe;

Chebyshe

;

Chebyshev

Chebyshe

; Chebyshe

3.12.

改进的三角形相似度与用户评分偏好（

ITR

）

协同过滤推荐系统中的相似性度量：综合评析与实验对比

协同过滤推荐系统相似性度量：深度分析与实验对比

基于协同过滤的音乐推荐系统：理论与实战

Java实现的电影推荐系统：基于协同过滤算法

基于协同过滤算法的个性化推荐研究现状综述.docx

基于协同过滤算法的个性化图书推荐系统的研究.docx

基于分布式表示技术的推荐算法综述.pdf

基于深度学习的个性化教育测量综述.pdf

基于深度学习的论文个性化推荐算法.pdf

推荐系统的循序进阶读物

推荐系统的循序进阶读物（从入门到精通）

最新资源