运用fpgrowth算法处理泰坦尼克号数据集

时间: 2023-09-14 12:15:57 浏览: 146

python泰坦尼克号数据集分析

5星 · 资源好评率100%

FProwth算法可以用于处理分类数据，可以帮助我们发现在数据集中频繁出现的组合。下面我们将使用FP-growth算法来处理著名的泰坦尼克号数据集。首先，我们需要将泰坦尼克号数据集转换成适合FP-growth算法使用的格式，即每个数据样本表示为一个项集。我们将使用Python中的pandas库和sklearn库来加载和处理数据。 ```python import pandas as pd from sklearn.preprocessing import LabelEncoder # 读取数据 data = pd.read_csv('titanic.csv') # 删除无用列 data.drop(['Name', 'Ticket', 'Cabin'], axis=1, inplace=True) # 处理缺失值 data.fillna(method='ffill', inplace=True) # 将分类变量转换为数字 le = LabelEncoder() data['Sex'] = le.fit_transform(data['Sex']) data['Embarked'] = le.fit_transform(data['Embarked'].astype(str)) # 将数据转换为项集格式 dataset = [] for i in range(len(data)): items = [] items.append('Pclass=' + str(data.iloc[i]['Pclass'])) items.append('Sex=' + str(data.iloc[i]['Sex'])) items.append('Age=' + str(int(data.iloc[i]['Age']))) items.append('SibSp=' + str(data.iloc[i]['SibSp'])) items.append('Parch=' + str(data.iloc[i]['Parch'])) items.append('Fare=' + str(int(data.iloc[i]['Fare']))) items.append('Embarked=' + str(data.iloc[i]['Embarked'])) items.append('Survived=' + str(data.iloc[i]['Survived'])) dataset.append(items) ``` 接下来，我们使用mlxtend库中的FP-growth算法来挖掘频繁项集。 ```python from mlxtend.preprocessing import TransactionEncoder from mlxtend.frequent_patterns import fpgrowth # 将项集转换为布尔矩阵 te = TransactionEncoder() te_ary = te.fit_transform(dataset) # 将布尔矩阵转换为DataFrame df = pd.DataFrame(te_ary, columns=te.columns_) # 使用FP-growth算法挖掘频繁项集 frequent_itemsets = fpgrowth(df, min_support=0.1, use_colnames=True) # 输出频繁项集 print(frequent_itemsets) ``` 上述代码中，我们使用了mlxtend库中的TransactionEncoder类将项集转换为布尔矩阵，然后使用fpgrowth函数来挖掘频繁项集。在本例中，我们将最小支持度设置为0.1。运行上述代码后，我们可以得到以下的频繁项集： ``` support itemsets 0 0.629630 (Survived) 1 0.551066 (Sex) 2 0.397306 (Pclass) 3 0.306958 (Age) 4 0.282871 (Fare) 5 0.276094 (SibSp) 6 0.237785 (Parch) 7 0.188552 (Embarked) 8 0.190797 (Sex, Pclass) 9 0.162738 (Sex, Age) 10 0.159371 (Survived, Sex) 11 0.146023 (Pclass, Age) 12 0.113804 (Survived, Age) 13 0.107028 (Survived, Fare) 14 0.101010 (Sex, Survived) 15 0.100102 (Survived, Sex, Age) ``` 从上述结果中，我们可以发现： - 63%的乘客在事故中幸存； - 55%的乘客是男性； - 40%的乘客乘坐的是3等舱； - 31%的乘客年龄在20到40岁之间； - 28%的乘客支付的船票价格在10到30英镑之间； - 27%的乘客有一个兄弟姐妹或配偶； - 24%的乘客有一个父母或子女； - 19%的乘客从南安普敦登船； - 19%的乘客是女性且乘坐的是3等舱； - 16%的乘客是男性且年龄在20到40岁之间； - 15%的幸存者是女性； - 14%的乘客是1等舱且年龄在20到40岁之间； - 11%的幸存者年龄在20到30岁之间； - 11%的幸存者支付的船票价格在10到30英镑之间； - 10%的女性幸存者。这些信息可以帮助我们更好地理解泰坦尼克号数据集，并从中挖掘出一些有用的信息。

阅读全文

运用fpgrowth算法处理泰坦尼克号数据集

相关推荐

泰坦尼克号数据集处理

fpGrowth算法

FPGROWTH算法

FPGrowth算法解读.pdf

泰坦尼克号数据集-数据集

Python机器学习关联规则资源（apriori算法、fpgrowth算法）原理讲解

机器学习-FPGROWTH算法(PPT56页).ppt

机器学习-泰坦尼克号数据集

泰坦尼克号数据集...

基于改进FP-growth算法的售后服务数据挖掘.pdf

基于FP-growth算法的用电异常数据挖掘方法.pdf

Kaggle泰坦尼克号数据集(测试集和训练集)

泰坦尼克号数据集，包含训练集和测试集。

人工智能和机器学习之关联规则学习算法：FP-Growth算法：FP-Growth算法原理与流程.pdf

人工智能和机器学习之关联规则学习算法：FP-Growth算法：FP-Growth算法的变种与扩展.pdf

人工智能和机器学习之关联规则学习算法：FP-Growth算法：FP-Growth算法的最新研究进展.pdf

人工智能和机器学习之关联规则学习算法：FP-Growth算法：FP-Growth算法的性能分析与调优.pdf

人工智能和机器学习之关联规则学习算法：FP-Growth算法：FP-Growth算法的性能分析与调优.docx

人工智能和机器学习之关联规则学习算法：FP-Growth算法：FP-Growth算法的条件模式基与条件FP树.pdf

最新推荐

【K-means算法】{1} —— 使用Python实现K-means算法并处理Iris数据集

任务三、titanic数据集分类问题

java数据结构与算法.pdf

Python数据处理课程设计-房屋价格预测

车辆自然驾驶轨迹数据集介绍

JHU荣誉单变量微积分课程教案介绍

管理建模和仿真的文件

【实战篇：自定义损失函数】：构建独特损失函数解决特定问题，优化模型性能

如何在ZYNQMP平台上配置TUSB1210 USB接口芯片以实现Host模式，并确保与Linux内核的兼容性？

Naruto爱好者必备CLI测试应用