大白话解析Apriori算法：Python实现与原理

87 浏览量更新于2024-08-03 收藏 899KB PDF 举报

"Apriori算法是一种经典的关联规则挖掘算法，用于发现数据集中项目之间的频繁模式或关联。在Python中，它可以被实现来处理各种数据集，找出物品之间的潜在关联，如啤酒与尿布的故事所示。Apriori算法通过迭代生成频繁项集并构建候选集来工作。其优点在于直观和易于理解，但缺点包括计算复杂度高和需要多次遍历数据。FpGrowth算法作为Apriori的改进版，通过构建指纹树（Finger-Print Tree）来优化性能。一、专业名词解释 1. 关联规则：关联规则是描述数据集中项之间有趣关系的规则，例如"如果购买了泡面，那么可能会购买香肠"。 2. 频繁项集：在数据集中出现次数超过预设阈值的项集。 3. 支持度：一个项集在所有交易中出现的比例，表示项集的流行程度。 4. 置信度：在已知一个事件发生的情况下，另一个事件发生的概率。二、Apriori算法思路 Apriori算法的基本思想是： 1. 初始化：确定最小支持度阈值，并生成单个项目的频繁项集。 2. 生成候选集：从当前频繁项集生成更长的候选集。 3. 计算支持度：对候选集中的每个项集计算其支持度。 4. 迭代：如果候选集中有项集的支持度超过阈值，则将其添加到频繁项集，否则停止算法。三、Python代码实现在Python中，可以使用迭代和字典数据结构来实现Apriori算法。首先，需要处理输入数据，计算支持度，然后生成候选集并更新频繁项集。代码通常包括以下步骤： - 数据预处理：将商品名转换为数字，将交易数据转化为列表。 - 计算单个项目的支持度。 - 递归生成候选集和频繁项集，直到没有新的频繁项集产生。四、Apriori的优点与缺点优点： - 易于理解和实现。 - 基于先验知识（Apriori性质）减少不必要的计算。缺点： - 计算量大，特别是当数据集很大时，需要多次遍历数据。 - 存储候选集可能导致内存效率低下。 - 对处理大规模数据效率较低。五、改进方法 FpGrowth算法通过构建FPTree来避免生成候选集，从而减少数据扫描次数，提高效率。此外，还有其他算法如Eclat、FP-Growth++等，它们都旨在解决Apriori的效率问题。 Apriori算法虽然经典，但在大数据场景下可能效率不足。然而，对于理解关联规则挖掘的基本原理和概念，它是很好的起点。通过Python实现，我们可以直观地了解算法的工作机制，并对其进行优化以适应不同的数据集。"

⼤

⽩

话解

析

Apriori

算

法

python

实

现

（

含

源

代

码

详解

）

⼀

、

专业

名

词解

释

⼆

、

算

法

思

路

三

、

python

代

码

实

现

四

、

Aprioir

的

优

点

、

缺

点

及

改

进

⽅

法

本

⽂

为

博

主

原

创

⽂

章

，

转载

请

注

明

出

处

，

并

附

上

原

⽂

链

接

。

原

⽂

链

接

：

https://blog.csdn.net/qq_39872846/article/details/105291265

前

⾔

：

Apriori

算

法

是

关

联

规

则

挖掘

算

法

，

也

是最

经

典

的

算

法

。

(

它

的

进

阶

算

法

有

FpGrowth

算

法

，

通过

构

造

⼀个

树

结

构来

压

缩

数据

记

录

，

使

得

挖掘

频

繁

项集

只

需

要

扫

描

两

次

数

据

记

录

，且

该

算

法

不

需

要

⽣

成

候

选

集

合

，

具

体

算

法

实

现

及

python

实

现

，

可

以

移

步

到

我

另

⼀

篇

博

客

–>

简

单

详

细

叙

述

FpGrowth

算

法

思

想

（

附

python

源

码

实

现

）

)

Apriori

算

法

是

为了

发

现

事

物

之

间

的

联

系

的

算

法

，

⽐

如

我

们

熟

知的

啤

酒

与

尿布

故

事

，

某

超

市

在

对

顾

客

购

物

习

惯

分

析时

，

发

现

，

男

性

顾

客

在

购

买

婴

⼉

尿

⽚

时

，

常常

会

顺

便

搭

配

⼏

瓶

啤

酒

来

犒

劳

⾃

⼰

，

于

是

尝

试

推

出

了

将

啤

酒

和

尿布

摆

在

⼀

起

的

促

销

⼿

段

，

最

后

使

得

啤

酒

与

尿布

销量

双双

提

升

。

我

们

的

Aprioir

算

法

就

是

为了

发

现

这

样

的

关

联⽽

产

⽣

的

，

在

⽂

章

中

我

会

尽

量

⽤

通

俗

的

语⾔

，

讲解

这

个

算

法

的

思

路

，

由

于

笔

者

⽔

平

有

限

，

⽂

章

可

能

太

过

冗

余

，

敬

请谅解

。

⼀

、

专业

名

词解

释

假

如

现

在

有

⼀

组

购

物

数据

，

共

条

记

录

，

每

条

记

录

都

是

⼀个

顾

客

在

超

市

购

买

商

品

产

⽣

的

数据

（

我

们

只

关

⼼

顾

客

买

的

种

类

，不

关

⼼

它

买了

这

类

商

品

的

数

量

，

因

为

我

们

要

找

到

是

商

品

种

类

之

间

的

关

联

，不

是

数

量

的

关

联

）

。

现

在

假

设

有

种

商

品

，

A B C D E

，

为了

程

序

实

现

，

把

它

换

成

数

字

表

示

更

好

⼀

点

A–>1, B–>2, C–>3, D–>4, E–>5

。

下

⾯

是

这

条

数据

，

把

种

类

ABCDE

换

成

数

字

1 2 3 4 5

。

[A C D] --> 1 3 4

[B C E] --> 2 3 5

[A B C E] --> 1 2 3 5

[B E] --> 2 5

、

什么

是

关

联

规

则

现

在

有

⼀个

⼈

，

超

市

⽼

板

⼩

红

，

她

拿

到

了

这

组

数据

，

想找

出

哪

些

商

品

是有

关

联

的

，

关

联

是

什么

意

思

呢

？

举

个

例

⼦

，

⽐

如

，

你

想

买

个

泡

⾯

，

你

⼀

桶

⾯

不

够

吃

，两

桶

吃

不

了

，

你

是

不

是

就

想

，

要

不

我

在

顺

便买

个

⾹

肠

？

还

不

够

！

在

加

个

蛋

呢

？

实

在

不

⾏

，

再加

个

鸡

腿

！

好

了

，

现

在

你

就

明

⽩

了

，

泡

⾯

、

⾹

肠

、

鸡

蛋

、

鸡

腿

，

这

个

商

品可

能

就

是

关

联

的

，

如

果

超

市

把

这

⼏

个

放

在

⼀

起

，

你

在

买

泡

⾯

的

时

候

，

是

不

是

⼀不

⼩

⼼

就

多

消

费

了

（万

恶

的

资

本

家

啊

），

你

就

会

不

由

感

受

到

，

现

在

连

泡

⾯

都

吃

不

起

了

。

、

⽀

持

度

继续

思

考

怎

样

找

出

这

些

关

联

商

品

，

⼩

红

现

在

有

条

数据

记

录

（

实

际

的

超

市

，

每

天

产

⽣

的

数据

可

能

上

千

，

我

们

这

⾥

就

简

化

⼀

点

，

⽅

便

理

解

），

⼩

红

很

聪

明

，

她

认

为

，

如

果某

⼀

种

商

品

组

合

（

这

个

组

合

，

可

以

是

个，

或

者

个，

甚

⾄

个

以

上

的

不

同

种

类

商

品

的

组

合

），

在

整

条

数据

库

中

出

现

的

次

数

太

少

，

那

我

就

认

为他们

没

有

关

联

，

这

个

道

理

很

显

然

，

⽐

如

，

商

品

组

合

，

假

如

是

⽩

酒

，

是

头

孢

（不

要

问

我

为什么

超

市

会

卖

药

，

反

正

它

现

在

就

得

卖

→_→

），

这

两个⼀

起

吃可

能

会中

毒

，

那

么你

在

买

酒

的

时

候

肯

定

不

会

刻

意

去

买

头

孢

吧

（不

要说

是

给

⼥

朋

友

买

的

￣

へ

￣，

来

⾃

单

身

狗

的

怨念

），

换

句

话说

，

如

果

你买了

，

⼤

概

率

不

会买

，

甚

⾄

会

刻

意

不

去

买

，

那

么

同

时

出

现

在

⼀

条

购

物

记

录

的

次

数

必

然

不

会

太多

，

因

此

可

以

认

为

两

者

没

有

关

联

。

那

⼩

红

⼜

在

想

，

这

个

商

品

组

合

出

现

的

次

数

⼩

于

多

少

，

我才

认

为

它

是

⽆

关

联

的

呢

？

这

个

次

数

可

以

随

意

规

定

，

我

们

称

为

⽀

持

度

。

但你

试

想

⼀下，

如

果

这

个

数

定

的

太

⼩

，

连

酒

和

头

孢

您

都

认

为

有

关

联

，

然

后

你

把

这

两个

摆

在

⼀

起

卖

，

显

然

不

合

适

，

算

法

意

义也

不

⼤

。

如

果

定

的

太

⾼

，

很

多

商

品

本来有

关

联

，

结

果

你

定

的

太

⾼

，

这

些

商

品

组

合

出

现

次

数

都

不

能

满

⾜

这

个

数

，

那

么

这

些

商

品

组

合

你也

就

找

不

出

来

，

算

法

也

就

失

去

了

意

义

。

所

以

这

个

值

⼀

定

要

取

的

合

适

才

好

。

这

个

取

值

就

称

为

最

⼩

⽀

持

度

。

对

应

于

我

们

⽂

中

的

例

⼦

，

在四

条

记

录

中

出

现

了

次

，

它

的

最

⼩

⽀

持

度

min_support(A)=2

，

这

是

以

它

出

现

的

次

数

作为

最

⼩

⽀

持

度

。

还

可

以

⽤

出

现

的

概

率

来

表

示

，

就

是

出

现

的

次

数

总

记

录

次

数

出

现

的

次

数

是

，

我

们

总

共

有

条

数据

，

最

⼩

⽀

持

度

也

可

以

表

示

为

：

min_support(A)=2/4=0.5

在

看

⼀下

的

最

⼩

⽀

持

度

：

同

时

出

现

的

次

数

为

次

，

总

记

录

数

依

旧

是

条

，

那

min_support(BE)=3

或

min_support(BE)=3/4

（

在

代

码

中

⽤

那

种

形式

表

示

都

可

以

，

表

示

的

意

义

是

⼀

样

的

）

、

置

信

度

⼩

红

⼜

要

开

始

想

了

（

前

⾯

提

到

过

她

很

聪

明

，

⼿

动

狗

头

），

只

⽤

次

数

⼤

⼩

来

确

定

是

否

关

联

，

是

不

是

太

草

率

了

，

假

如

你

去

买

泡

⾯

，

这

个

⽉

钱

快

⻅

底

了

（

肯

定

啊

，

谁

有

钱

会

吃

泡

⾯

），

你

打

算

买

或

包

，

到

了

地

⽅

，

⾥

⾯

有

很

多

⼝味

的

，

⽐

如

麻

辣

，

原味

，三

鲜

，

酸

菜

，

但你

就

喜

欢

麻

辣

的

，

本来是

想

全

买

麻

辣

⼝味

的

，

可

惜

的

是

每

种

⼝味

都

只

剩

包

了

，

⽆

奈

之

下，

你买了

包

麻

辣

，

还

有

包

酸

菜

的

，

⾛

之

前

还

拿

了

个

蛋

，，，

这

个

时

候你

的

这

条

购

物

信

息

是

{

麻

辣

，

酸

菜

，

蛋

}

，

前

⾯

说

了

，

我

们

不

关

⼼

数

量

，

只

关

⼼

种

类

。

这

个

时

候

，

虽

然

购

物

记

录

⾥

⾯

有

麻

辣

，

和

酸

菜

两

种

物

品

，

但你

要

知

道

，

你

刚

开

始

是

想

全

买

麻

辣

的

，

是

因

为

麻

辣

的

没

了

，

才

买了

酸

菜

。

虽

然

{

麻

辣

，

酸

菜

}

同

时

出

现

了

，且

在

计

算

⽀

持

度

时

，

还

提

供了

次

数

，

可

能

会

误认

为

麻

辣

和

酸

菜

是

相

关

的

，

但

其

实

你

知

道

你

是

⽆

奈

才

选

的

酸

菜

泡

⾯

，

麻

辣

和

酸

菜

并

不

是

相

关

的

，

甚

⾄

顾

客

在

买

麻

辣

⼝味

的

时

候

，

刻

意

不

会

去

购

买

酸

菜

⼝味

的

泡

⾯

，

它

们

是

反

相

关

的

。

如

果

能

计

算

出

，

顾

客

在

买了

麻

辣

的

情

况

下，

同

时

买了

酸

菜

的

概

率

多好

啊

，

如

果

这

个

概

率

⼤

，

就

表

明

顾

客

买了

麻

辣

的

，

还

要

买

酸

菜

的

情

况

不

是

偶

然

，

顾

客就

是

同

时

喜

欢

吃

这

两

种

⼝味

，

每次

买

泡

⾯

，

总

是

同

时

买

这

两

种

⼝味

，两

种

⼝味

是

关

联

的

。

如

果

概

率

⼩

，

就

表

明

顾

客

只

喜

欢

其

中

⼀

种

⼝味

，

买

酸

菜

是

因

为

⽆

奈

之举

，

超

市

没

货

了

。

现

在

就

清

楚

了

，

我

们

算

⼀下

这

个

概

率

，

很

明显是条

件

概

率

的

计

算

，

⽤

表

示

这

两

种

商

品

，

则

同

时

出

现

的

次

数

÷ A

出

现

的

次

数

，

就

是

顾

客

在

买

的

前

提

下，

⼜

买了

的

概

率

，

这

个

概

率

⼜

称

为

置

信

度

，

这

个

式

⼦

的

意

思

表

示

，

对

于

顾

客

买了

，

同

时

⼜

买了

的

⾏

为

有

多

少

⾃

信

，

有

多

少

把

握

，

认

为

这

个

商

品

组

合

是有

关

联

的

。

和

⽀

持

度

类

似

，

我

们也

得

⾃

⼰

确

定

⼀个

数

，

称

为

最

⼩

置

信

度

，

⼤

于

这

个

数

就

认

为

这

个

商

品

组

合

有

关

联

。

下

⾯

对

于

⽂

章

给

出

的

数据

计

算

⼀下

置

信

度

：

以

为例

如

：

同

时

出

现

的

次

数

为

，

单

独

出

现

的

次

数

为

，

则

置

信

度

confidence

（

C–>B

）

=2/3

，

称

为

顾

客

买了

的

情

况

下，

⼜

买了

的

这

个

⾏

为

> BC

具

有

关

联

性

质

的

把

握

为

2/3

，

换

句

话说

，

就

是

顾

客

买了

后

，

有

2/3

的

概

率

去

买

。

再

算

⼀下

顾

客

买了

的

情

况

下，

⼜

买了

的

置

信

度

是

多

少

，

同

时

出

现

的

次

数

依

旧

为

，

单

独

出

现

的

次

数

为

confidence

（

B–>C

）

=2/3

，

称

为

顾

客

买了

的

情

况

下，

⼜

买了

的

这

个

⾏

为

的

可

信

度

2/3

，

换

句

话说

，

就

是

顾

客

买了

后

，

有

2/3

的

概

率

去

买

。

下载后可阅读完整内容，剩余5页未读，立即下载

番茄小能手

粉丝: 4812
资源: 234

大白话解析Apriori算法：Python实现与原理

Apriori算法伪代码

Python电影智能推荐之Apriori算法（推荐）

python使用Apriori算法进行关联性解析

数据挖掘：关联分析与Apriori算法解析

机器学习关联规则：支持度与Apriori算法解析

数据挖掘技术：关联规则与Apriori算法深度解析

【Apriori算法深度解析】：挖掘关联规则的权威指南

Apriori关联分析算法python代码

apriori算法代码带解析

mapreduce实现apriori算法代码

最新资源