python采用apriori数据相关性计算方法,对glass.csv数据集的不同属性之间的相关性进行计算。对于相关性超过阈值的属性,采用数据预处理技术对重复记录进行处理。
时间: 2023-06-20 22:07:30 浏览: 72
首先,导入相关的库和数据集:
```python
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori
data = pd.read_csv('glass.csv')
```
然后,我们需要将数据集转换为适合进行关联规则计算的格式。这里使用 `TransactionEncoder` 将数据集转换为布尔矩阵:
```python
te = TransactionEncoder()
te_ary = te.fit(data.values).transform(data.values)
df = pd.DataFrame(te_ary, columns=te.columns_)
```
接下来,我们可以使用 `apriori` 函数计算频繁项集:
```python
frequent_itemsets = apriori(df, min_support=0.5, use_colnames=True)
```
在这里,我们设置 `min_support` 参数为 0.5,表示只有在超过一半的记录中出现的项集才会被认为是频繁项集。
最后,我们可以使用 `association_rules` 函数计算关联规则:
```python
from mlxtend.frequent_patterns import association_rules
rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.7)
```
在这里,我们设置 `metric` 参数为“confidence”,表示我们希望计算的是置信度。我们还设置 `min_threshold` 参数为 0.7,表示我们只对置信度超过 0.7 的规则感兴趣。
最后,我们可以使用一些数据预处理技术,如去重和缺失值处理等来处理重复记录。
阅读全文