(1) 使用 pandas 读入数据 titanic.csv，命名为 origin，并查看数据维度与前 10 行。 (2) 处理缺失值： (a) 查看哪些列存在缺失值。 (b) 发现原始数据中存在年龄为空值的记录，可能是无法识别乘客年龄的缘故，因此去除年龄为空的记录。（满足 age 为空的一行数据全部丢弃）并再次查看哪些列存在缺失值。保存上述数据清洗后的数据至“titanic2_cleaned.csv”文件中，随后的题目都在 “titanic2_cleaned.csv”上进行。 1 (3) 筛选列名为 pclass,sex,age,fare,who,adult_male 的列，构成模型数据，命名为 titanic_model。 (4) 使用 patsy.dmatrices() 函数，建立变量 fare 对变量 age 的线性回归，为该线性模型产生设计矩阵；根据最小二乘法计算回归拟合系数。 (5) 使用 Pandas.get_dummies() 将分类变量 sex、who 转化为虚拟变量，利用 patsy 将数值列 pclass 转化为分类变量。 (6) 使用 statsmodels 包，基于 statsmodels.api（数组接入），利用最小二乘法建立 fare 对 pclass、 sex、age、who 的线性回归模型，（pclass、age 为数值型变量，sex、who 为虚变量），并添加截距项，展示拟合系数。

时间: 2024-02-15 13:01:24 浏览: 143

好的，以下是针对你的问题的回答： (1) 使用 pandas 读入数据 titanic.csv，命名为 origin，并查看数据维度与前 10 行。 ```python import pandas as pd origin = pd.read_csv('titanic.csv') print("数据维度为：", origin.shape) print("前10行数据为：\n", origin.head(10)) ``` (2) 处理缺失值： (a) 查看哪些列存在缺失值。 ```python print(origin.isnull().sum()) ``` (b) 发现原始数据中存在年龄为空值的记录，可能是无法识别乘客年龄的缘故，因此去除年龄为空的记录。（满足 age 为空的一行数据全部丢弃）并再次查看哪些列存在缺失值。保存上述数据清洗后的数据至“titanic2_cleaned.csv”文件中，随后的题目都在“titanic2_cleaned.csv”上进行。 ```python # 去除 age 为空的行 titanic2 = origin.dropna(subset=['age']) # 再次查看哪些列存在缺失值 print(titanic2.isnull().sum()) # 保存数据到 titanic2_cleaned.csv 文件中 titanic2.to_csv('titanic2_cleaned.csv', index=False) ``` (3) 筛选列名为 pclass,sex,age,fare,who,adult_male 的列，构成模型数据，命名为 titanic_model。 ```python titanic_model = titanic2[['pclass', 'sex', 'age', 'fare', 'who', 'adult_male']] ``` (4) 使用 patsy.dmatrices() 函数，建立变量 fare 对变量 age 的线性回归，为该线性模型产生设计矩阵；根据最小二乘法计算回归拟合系数。 ```python import patsy import numpy as np # 构建设计矩阵 y, X = patsy.dmatrices('fare ~ age', data=titanic_model, return_type='dataframe') # 根据最小二乘法计算回归拟合系数 from sklearn.linear_model import LinearRegression lr = LinearRegression() lr.fit(X, y) print("回归系数为：", lr.coef_) ``` (5) 使用 Pandas.get_dummies() 将分类变量 sex、who 转化为虚拟变量，利用 patsy 将数值列 pclass 转化为分类变量。 ```python # 将 sex、who 转化为虚拟变量 titanic_model = pd.get_dummies(titanic_model, columns=['sex', 'who']) # 将 pclass 转化为分类变量 titanic_model['pclass'] = titanic_model['pclass'].astype('category') titanic_model = patsy.dmatrix('pclass + age + fare + sex_female + sex_male + who_child + who_man + who_woman', data=titanic_model, return_type='dataframe') ``` (6) 使用 statsmodels 包，基于 statsmodels.api（数组接入），利用最小二乘法建立 fare 对 pclass、sex、age、who 的线性回归模型，（pclass、age 为数值型变量，sex、who 为虚变量），并添加截距项，展示拟合系数。 ```python import statsmodels.api as sm # 为矩阵添加截距项 X = sm.add_constant(titanic_model) # 建立线性回归模型 model = sm.OLS(y, X).fit() # 展示拟合系数 print(model.params) ```

阅读全文

相关推荐

python 常用 示例 数据 train.csv eval.csv titanic.csv

9.Pandas教程_数据清洗-类型转换与处理缺失值.mp4

Python数据分析与建模库-03数据分析处理库Pandas-1.数据读取

使用titanic.csv数据集进行以下计算 1.缺失值处理，删除embarked列为空的行 2.对age列填充平均值 3.使用透视表查看不同性别的存活率

1）使用pandas读取文件data.csv中的数据，创建DataFrame对象，并删除其中所有缺失值。

使用pandas读取文件data.csv中的数据，创建DataFrame对象，并删除其中所有缺失值。

请使用 pandas 库将 hotel.csv 中评分为空的数据设置为 0 并且存入 hotel2_c3.csv

python 使用pandas读取文件data.csv中的数据，创建DataFrame对象，并删除其中所有缺失值。

请使用python csv文件操作相关函数Titanic数据集中的数据，并将前三行写入Fare.csv

使用pandas中的read_csv函数分别读取无人售货机的数据，数据集为数据1.csv和数据2.csv，注意编码格式。

#使用merge函数合并数据1.csv和数据2.csv，主键为“商品”

使用pandas中的read_csv函数读取数据文件数据1.csv

#请使用Python csV文件操作相关的数读取Titanic数据集中的数据，并将前3行写入Fare.csv.

（2）利用pandas读取文件data.csv中数据，创建1个行列索引的数据结构DataFrame，并删除其中的所有缺失值。

通过使用Pandas 对 jobs.csv 中的数据进行数据处理需要有注释

1、 通过使用Numpy 和 Pandas 相关函数 API 对 jobs.csv 中的数据进行数据处理。

使用Python(pandas库)处理csv数据

Python使用Pandas对csv文件进行数据处理的方法

Python数据分析与建模库-03数据分析处理库Pandas-2.数据预处理

pandas中read_csv的缺失值处理方式

最新推荐

使用Python(pandas库)处理csv数据

pandas中read_csv的缺失值处理方式

使用Python Pandas处理亿级数据的方法

使用python获取csv文本的某行或某列数据的实例

利用pandas向一个csv文件追加写入数据的实现示例

GitHub图片浏览插件：直观展示代码中的图像

管理建模和仿真的文件

【OPPO手机故障诊断专家】：工程指令快速定位与解决

求[100，900]之间相差为12的素数对（注：要求素数对的两个素数均在该范围内）的个数

Android IPTV项目：直播频道的实时流媒体实现

python 常用示例数据 train.csv eval.csv titanic.csv

1、通过使用Numpy 和 Pandas 相关函数 API 对 jobs.csv 中的数据进行数据处理。