协同过滤推荐系统相似性度量：深度分析与实验对比

32 浏览量更新于2024-06-17 收藏 3.08MB PDF 举报

"沙特国王大学学报的一篇文章深入探讨了协同过滤推荐系统中相似性度量的综述和实验比较，由Fethi Fkih在MARS研究实验室进行研究。文章关注的重点在于如何利用不同的相似性度量来优化推荐系统的性能，特别强调了在基于用户和基于项目的协同过滤方法中的应用。实验对比了多种相似性度量在MovieLens100k、MovieLens1M和Jester数据集上的表现，结果显示ITR和IPWR对于基于用户的推荐系统最有效，而AMI则是基于项目的推荐系统的最佳选择。" 本文主要讨论了协同过滤(Collaborative Filtering, CF)推荐系统的核心概念和相似性度量的重要性。协同过滤是一种广泛应用于个性化推荐的技术，它依赖于用户的历史行为和偏好来预测他们可能感兴趣的新物品。推荐系统根据用户与其他用户的相似性构建目标用户的配置文件，因此选择合适的相似性度量对于准确预测用户喜好至关重要。在基于用户的协同过滤(UBCF)中，度量用户之间的相似性通常是预测未知评分的关键。文章提到的邻居选择和评分预测是UBCF的两个关键步骤。邻居选择涉及确定与目标用户最相似的其他用户，而评分预测则使用这些相似用户的评分来预测目标用户对未评分项的可能评分。另一方面，基于项目的协同过滤(IBCF)侧重于项目之间的相似性，同样包括邻居选择和评分预测。在这种情况下，项目之间的相似性用于预测用户对未评价项目可能的喜好。文章详细回顾了多种相似性度量，如向量相似度（余弦相似度）和调整后的相似性度量，这些度量用于量化用户或项目之间的关系强度。实验结果表明，对于基于用户的推荐系统，Information Theoretic Reliability (ITR)和Item-to-User Predictive Ranking (IPWR)表现出色，而在基于项目的系统中，Adjusted Mutual Information (AMI)是最优的相似性度量。具体实验数据显示，ITR在MovieLens100k和MovieLens1M上获得了最低的平均绝对误差(MAE)，分别是0.786和0.731，而IPWR在Jester上的MAE为3.256。相应地，AMI在基于项目的方法中展现出色的性能，其MAE在三个数据集上分别为0.745、0.724和3.281。选择正确的相似性度量对于提升协同过滤推荐系统的准确性具有显著影响。不同的数据集和推荐系统类型可能需要采用不同的度量方法，这需要进一步的研究和实验来优化推荐算法的性能。此外，这项工作也提醒研究人员在设计和评估推荐系统时应考虑多种相似性度量，并针对特定应用场景进行选择。

弗基

赫

沙特国王大学学报

7649

是

的

吉

鲁伊

测井

;

例如，2009年）。为此，用户被呈现为他对项目集合的评级的向量，并

且项目被呈现为由用户集合对其评级的向量。MI公式表示核心-

两个用户u和

之间的关系如下（11）：

3.6. Spearman

秩序相关系数

斯皮尔曼相关性（Spearman，2010）评估两个变量之间的单调关

系。在单调关系中，如果第一个变量的值改变，则值

;

第

页

。

;

p r ;r

你好

。

第二个变量的变化也是如此，但没有恒定的速率（不是线性的）。斯

皮尔曼等级顺序相关系数，命名为

可以取一个值，

1和1.它与人类的行为

其中，I

和I

分别

是由用户u和v评级的项目集合。此外，

rui

表示用户u对项

目i的评级，

rvj

表示用户

对项目j

的

评级。当量（12）提供相关值

在两个项目

和

之间。

Spearman

相关性

，我们使用以下公式：（

）对于用户和

Eq.

（

）物品。

;

埃斯比略

山口

2012

年

月

日

好的

。

我我

Rank

u2U

乌

伊

河

qu;v1-

-1

其中，

和

分别

是用户评定的项目

和

的

集合。

Rui

表示用户

对项目

表示分配给项目j的评级用户V。调整

互信息（AMI）是用于计算统计相关性的MI的变体（ Vinh等人，

2009），则返回一个介于0和1之间的值。如果由于统计变量之间的偶然

性而发生一致性效应，则将通过AMI（偶然性调整）进行校正。下式

（13）计算调整后的相互

其中q=u;v=表示两个用户u和v之间的斯皮尔曼等级相关性;I

表示由u和

v共同评级的项目集合;r

和r

分别表示用户u和v的评级。

关于议程项目i，Rankr

和Rankr

表示r

和r

的秩

分别在向量u和v中。n

表示数字 u和v之间的共同评级。

下午

Rank

u i

Ran k

;

两个用户u和v之间的信息（项目i和j相同）。

i j

-1

ð17Þ

阿密乌

密

乌

MaxH

;

ð13Þ

其中

=i;j=表示两个之间的斯皮尔曼秩相关性

项目i和j;U

表示对两个项目i

都进行

评级的用户集合

其中

，

是

和

的熵

;

是

两个用户u和

之间的预期互信息

（Vinh等人， 2009年）。

3.5.

调整后的兰德指数

为了使用Rand指数（RI）测量，我们假设用户u和v（或项目i和j）

是评级的集群。在我们的上下文中，用户被表示为他对项目集的评级的

聚类，而项目被认为是其评级的聚类

用户的集合。为了定义Rand指数的公式，我们必须定义以下3个参数

（Rand，1971）：

是在两个集群中分组在一起的评级对的数量。

是在两个聚类中没有分组在一起的评级对的数量。

●

N是两个聚类中的评级总数。

和j;

rui

和

ruj

分别表示用户u对项目i和j的评级。秩

rui

和

秩

ruj

分别表示向量u中

rui

和

ruj

的秩;n表示i和j之间的公共等级的数量。

3.7.

肯德尔

作为Spearmans返回的值范围从1（一个变量的秩增加，另一个变量

的秩减少）到1（两个变量的秩一起增加），而0表示两个变量之间没有

关系。该测量主要基于对一致对（以相同方式排序）和不一致对（以不

同方式排序）的计数（Conover，1971; Koh和Owen，2000）。用于计

算两个评级向量之间的关联强度的肯德尔τ被定义为（等式2 ）。

（18））：

然后，

Rand

指数被定义如下（等式

）。

）：

ð18Þ

ð14Þ

其中c是一致对的数量，d是不一致对的数量。

其中

是一组

个

评级中的无序对的数量。

调整后的兰德指数（

ARI

）是对兰德指数的机会版本进行了校正

（

Rand

，

1971; Vinh

等人，

2009; Sinnott

等人，

2016

年）。它返

回一个介于

（不存在相关性）和

（相同聚类）之间的值公式定义

在

Eq. 15

（项目

和

相同）：

3.8.

Jaccard

Jaccard指数（Jaccard，1912），用J表示，计算两个集合的相似性

和多样性。两个有限集之间的Jaccard系数定义为交集的基数除以并集

的基数。也就是说，它测量了两个集合之间共享的元素数量与两个集合

中元素总数J索引需要

阿里

，

你

最大

值

;

ð15Þ

0和1之间的值，索引越接近1，两个向量越相似。下式（19）计算两个

向量u和

的Jaccard指数，而u和

可以是用户（评级集合

其中

是

两

个聚类

之间

的

预期

Rand

索引

u和v（Vinh等人， 2009年）。

由同一用户分配）或项目（分配给同一项目的一组评级）。

●

i2I

j 2I

弗基

赫

沙特国王大学学报

7650

;

；

ð Þ

;

（

）

我

是

一

个

乌

伊

河

J u

[

ð19Þ

MS i j

天

天i

;

ð27Þ

3.9.

欧氏距离

从用户u到用户v（或从项目i到项目j）的欧几里德距离（欧几里

得空间中两个用户（或项目）之间的线段

空间实际上，每个用户都由其相对于项基的笛卡尔坐标表示（对于相对

于用户基表示的项来说也是一样）。

3.11.

切比雪夫距离

两个向量之间的切比雪夫距离是它们沿着任何坐标维度的差异中

的最大值（

Abello

等人，

2002

年）。用户可以通过其相对于项目基

础的坐标来建模（对于项目来说也是一样）。因此，

Cheby-

提供两个用户

和

之间的

shev

距离（

Chebyshe

如下（公式

）：

并且两个用户（或两个项目）之间的距离是其坐标的数值差的绝对值

的

Chebyshe

;

2018年12月28日

表示两个用户u和

之间的相关性的欧几里德距离（d）公式如下

（20）：

其中，

表示由

和

rui

和

rvi

分别表示用户u和v的评级，

D UV

i2I

项目

一

。公式（29）给出了

其中，

表示由

和

Chebysh e

;

ma x

rui

和

rvi

分别

表示用户u和v对项目i的评级。公式（21）提供了两个项目i

和j之间的欧几里德距离。

其中，U

表示对项目i和

项目

j都进行评级的用户集合;r

和r

分别表示用

户u对项目i和

项目

j的评级。用户和项目的相似性度量，使用Chebyshev

距离，定义如下（公式30和31）：

;

。

ﬃﬃ

ﬃﬃﬃ

ﬃﬃﬃ ﬃ

ﬃﬃ

ﬃ

ﬃﬃ

ﬃ ﬃ

ð21Þ

Chu

130

Chebyshe

;

其中，U

表示对项目i和

项目

j都进行评级的用户集合;r

和r

分别表示用

户u对项目i和

项目

j的评级。欧几里得距离应该被归一化以成为相似性度

量。公式（22）和（23）分别定义用户和项目的欧几里德相似性（ES

ES u

天

;

ES i j

天

;

3.10.

曼哈顿距离

两个向量之间的曼哈顿距离，也称为城市街区和出租车，等于向

量之间距离的一范数（

Szabo

，

2015

）。为了使这种度量适应

域，我们必须通过用户相对于项目基础的笛卡尔坐标来表示用户（对

于项目来说也是一样的

两个用户

和

之间的曼哈顿距离（

）如下

（公式

）：

Chebyshe v

Chebyshe

v Chebyshe;

Chebyshe

;

Chebyshev

Chebyshe

; Chebyshe

3.12.

改进的三角形相似度与用户评分偏好（

ITR

）

协同过滤推荐系统相似性度量：深度分析与实验对比

cole_02_0507.pdf

工程硕士开题报告：无线传感器网络路由技术及能量优化LEACH协议研究

【东海期货-2025研报】东海贵金属周度策略：金价高位回落，阶段性回调趋势初现.pdf

图像数据处理工具+数据(帮助用户快速划分数据集并增强图像数据集。通过自动化数据处理流程，简化了深度学习项目的数据准备工作)

diminico_02_0709.pdf

agenda_3cd_01_0716.pdf

A课件Python全栈开发线下班.zip

diminico_02_1108.pdf

基于人工智能大模型技术的果蔬农技知识智能问答系统.pdf

diminico_02_0307.pdf

最新资源