import pandas as pd from sklearn.ensemble import RandomForestRegressor titanic = pd.read_csv("D:/新建文件夹/实训/train.csv") ### 使用 RandomForestClassifier 填补缺失的年龄属性 def set_missing_ages(df): # 把已有的数值型特征取出来丢进Random Forest Regressor中 age_df = df[['Age', 'Fare', 'Parch', 'SibSp', 'Pclass']] # 乘客分成已知年龄和未知年龄两部分 known_age = age_df[age_df.Age.notnull()].values() unknown_age = age_df[age_df.Age.isnull()].values() # y即目标年龄 y = known_age[:, 0] # X即特征属性值 X = known_age[:, 1:] # fit到RandomForestRegressor之中 rfr = RandomForestRegressor(random_state=0, n_estimators=2000, n_jobs=-1) rfr.fit(X, y) # 用得到的模型进行未知年龄结果预测 predictedAges = rfr.predict(unknown_age[:, 1::]) # 用得到的预测结果填补原缺失数据 df.loc[(df.Age.isnull()), 'Age'] = predictedAges return df titanic = set_missing_ages(titanic) #将Embarked,Sex,Pclass转换成为onehot编码 dummies_Embarked = pd.get_dummies(titanic['Embarked'], prefix= 'Embarked') dummies_Sex = pd.get_dummies(titanic['Sex'], prefix= 'Sex') dummies_Pclass = pd.get_dummies(titanic['Pclass'], prefix= 'Pclass') df = pd.concat([titanic, dummies_Embarked, dummies_Sex, dummies_Pclass], axis=1) df.drop(['Pclass', 'Name', 'Sex', 'Ticket', 'Cabin', 'Embarked'], axis=1, inplace=True) print(df)

时间: 2024-03-11 13:46:47 浏览: 64

python 常用示例数据 train.csv eval.csv titanic.csv

Python是一种广泛使用的编程语言，尤其在数据处理和分析领域中占据着重要地位。在这个场景中，我们关注的是三个CSV（Comma Separated Values）文件：`train.csv`、`eval.csv`和`titanic.csv`。CSV文件是用于存储表格数据的简单文本格式，它在数据分析、机器学习和统计工作中非常常见。 `titanic.csv`可能是一个经典的数据集，通常用于教学和演示数据科学的基本技巧。泰坦尼克号数据集包含了乘客的信息，如年龄、性别、票价、船舱等级等，以及他们是否幸存的标签。这个数据集经常用于分类任务，比如预测乘客的生存概率，以此来学习和理解机器学习算法，如逻辑回归、决策树、随机森林或支持向量机等。 `train.csv`和`eval.csv`可能分别代表训练数据集和评估数据集。在机器学习项目中，数据通常被分为训练集和测试集（或者评估集）。训练集用于训练模型，让模型学习数据中的模式；而评估集则用来测试模型的性能，看它在未见过的数据上的表现如何。这种划分有助于防止过拟合，确保模型具有良好的泛化能力。使用Python处理这些CSV文件时，最常用的库是Pandas。Pandas提供了DataFrame数据结构，非常适合处理表格数据。以下是一些常用的操作： 1. **读取CSV文件**：使用`pandas.read_csv()`函数可以轻松地将CSV文件加载到DataFrame中。 ```python import pandas as pd df_titanic = pd.read_csv('titanic.csv') df_train = pd.read_csv('train.csv') df_eval = pd.read_csv('eval.csv') ``` 2. **数据预处理**：预处理包括缺失值处理（如填充或删除）、数据类型转换、异常值检测等。例如，可以用`fillna()`填充缺失值，`astype()`转换数据类型。 ```python df_titanic['Age'].fillna(df_titanic['Age'].mean(), inplace=True) # 填充年龄的平均值 df_titanic['Embarked'] = df_titanic['Embarked'].fillna('Unknown') # 填充登船地点的众数或'Unknown' ``` 3. **数据探索**：使用Pandas提供的各种方法进行描述性统计和可视化，例如`describe()`、`value_counts()`、`groupby()`等。 ```python print(df_titanic.describe()) # 输出统计摘要 df_titanic['Survived'].value_counts() # 统计存活人数分布 ``` 4. **特征工程**：创建新特征，如计算年龄的中位数分组、根据性别和船舱等级生成指示变量等。 ```python df_titanic['AgeGroup'] = pd.cut(df_titanic['Age'], bins=5, labels=['Young', 'Child', 'Adult', 'Middle_Aged', 'Senior']) ``` 5. **模型训练**：使用scikit-learn库进行模型训练。例如，用逻辑回归预测生存概率： ```python from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression X_train, y_train = df_train.drop('Survived', axis=1), df_train['Survived'] X_eval, y_eval = df_eval.drop('Survived', axis=1), df_eval['Survived'] X_train, X_test, y_train, y_test = train_test_split(X_train, y_train, test_size=0.2) model = LogisticRegression() model.fit(X_train, y_train) ``` 6. **模型评估**：使用评估集测试模型性能，如准确率、召回率、F1分数等。 ```python from sklearn.metrics import accuracy_score, recall_score, f1_score y_pred = model.predict(X_eval) print(f"Accuracy: {accuracy_score(y_eval, y_pred)}") print(f"Recall: {recall_score(y_eval, y_pred)}") print(f"F1 Score: {f1_score(y_eval, y_pred)}") ``` 以上就是使用Python处理CSV文件，特别是针对机器学习任务的一些基本步骤和示例。通过这些操作，我们可以对数据进行深入研究，构建并评估预测模型，从而在实际问题中做出有价值的决策。

这段代码的问题可能是在以下这行代码： ```python known_age = age_df[age_df.Age.notnull()].values() ``` 这里的 values() 应该改成 values。 values() 是一个 pandas DataFrame 的方法，用来返回数据帧的值的 Numpy 数组形式。但是在这里，我们已经使用了 .values 属性来获取 age_df 的 Numpy 数组形式，所以不能再次使用 values() 方法。修改代码为： ```python known_age = age_df[age_df.Age.notnull()].values ``` 这样就可以避免这个错误了。

阅读全文

相关推荐

pd_split_train_test.rar_pandas_pandas对数据分类_pd.split_split_数据分类

Python数据科学工具链：Scikit-learn、Pandas与Matplotlib的最佳实践攻略

Python数据分析：模型评估与调优

机器学习入门指南：从理论到实践

深入理解机器学习算法：决策树原理与实践

机器学习算法对比：XGBoost与主流算法的深入分析

交叉验证的艺术：超参数优化中的理论与实践

CatBoost特征选择关键步骤：模型效率提升的10大技巧

【Python机器学习数据预处理】：数据结构应用技巧大公开

【Kaggle竞赛LightGBM攻略】：冠军经验分享与技巧总结

【模型评估与选择】：避开陷阱，做出最明智的模型决策

【Python数据分析必学绝技】：轻松入门到精通的10个实用技巧

【数据处理高手】：掌握这7种特征提取与降维技巧，优化你的数据预处理流程

针对Titanic.csv数据集中的关于乘客等级和存活状态的关系用随机森林用Python表示出来

1. 利用随机森林求出Titanic数据集的训练集及测试集预测准确率。 2. 跑出影响因素的重要性排序图。 3. 跑出随机森林收敛图。 4. 将代码列出。

1.利用随机森林求出Titanic数据集的训练集及测试集预测准确率。 2.跑出影响因素的重要性排序图。 3.跑出随机森林收敛图。 4.将代码列出。

titanic生存预测python

最新推荐

EDR（ Endpoint Detection and Response：端点检测和响应）测试数据，这些数据可能来自主流工具 用于学习探索性分析

2024年汽车市场行情及小米首款SUV发布与智驾数据积累

流程优化项目过程中流程梳理过程方法

INTERNET TRENDS 2015 – CODE CONFERENCE

一款低代码生成器，可根据自定义模板内容，快速生成代码，实现项目的快速开发、上线，减少重复的代码编写，开发人员只需专注业务逻辑即可

Elasticsearch核心改进：实现Translog与索引线程分离

管理建模和仿真的文件

病房呼叫系统设计基础：7个关键架构策略让你一步入门

Selenium如何获取Shadow DOM下的元素属性？

分享个人Vim与Git配置文件管理经验

EDR（ Endpoint Detection and Response：端点检测和响应）测试数据，这些数据可能来自主流工具用于学习探索性分析