data['FamilySize'] = data['sibsp'] + data['parch'] + 1 survived = data[data['survived'] == 1]['FamilySize'] not_survived = data[data['survived'] == 0]['FamilySize'] survived_ratio = survived.value_counts() / len(survived) not_survived_ratio = not_survived.value_counts() / len(not_survived) # 使用ANOVA分析验证多个样本之间的差异 f_stat, p_val = stats.f_oneway(survived, not_survived) # 输出结果 print('Survived ratio by family size:') print(survived_ratio) print('Not survived ratio by family size:') print(not_survived_ratio) print('f-statistic:', f_stat) print('p-value:', p_val) Survived ratio by family size: 1 0.476608 2 0.260234 3 0.172515 4 0.061404 7 0.011696 6 0.008772 5 0.008772 Name: FamilySize, dtype: float64 Not survived ratio by family size: 1 0.681239 2 0.131148 3 0.078324 6 0.034608 5 0.021858 7 0.014572 4 0.014572 9 0.012750 8 0.010929 Name: FamilySize, dtype: float64 f-statistic: 0.5837375690419451 p-value: 0.4450537592077023什么意思

import matplotlib.pyplot as plt import pandas as pd import seaborn as sns from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import accuracy_score from sklearn.model_selection import train_test_split # 读取训练集和测试集数据 train_data = pd.read_csv(r'C:\ADULT\Titanic\train.csv') test_data = pd.read_csv(r'C:\ADULT\Titanic\test.csv') # 统计训练集和测试集缺失值数目 print(train_data.isnull().sum()) print(test_data.isnull().sum()) # 处理 Age, Fare 和 Embarked 缺失值 most_lists = ['Age', 'Fare', 'Embarked'] for col in most_lists: train_data[col] = train_data[col].fillna(train_data[col].mode()[0]) test_data[col] = test_data[col].fillna(test_data[col].mode()[0]) # 拆分 X, Y 数据并将分类变量 one-hot 编码 y_train_data = train_data['Survived'] features = ['Pclass', 'Age', 'SibSp', 'Parch', 'Fare', 'Sex', 'Embarked'] X_train_data = pd.get_dummies(train_data[features]) X_test_data = pd.get_dummies(test_data[features]) # 合并训练集 Y 和 X 数据，并创建乘客信息分类变量 train_data_selected = pd.concat([y_train_data, X_train_data], axis=1) print(train_data_selected) cate_features = ['Pclass', 'SibSp', 'Parch', 'Sex', 'Embarked', 'Age_category', 'Fare_category'] train_data['Age_category'] = pd.cut(train_data.Fare, bins=range(0, 100, 10)).astype(str) train_data['Fare_category'] = pd.cut(train_data.Fare, bins=list(range(-20, 110, 20)) + [800]).astype(str) print(train_data) # 统计各分类变量的分布并作出可视化呈现 plt.figure(figsize=(18, 16)) plt.subplots_adjust(hspace=0.3, wspace=0.3) for i, cate_feature in enumerate(cate_features): plt.subplot(7, 2, 2 * i + 1) sns.histplot(x=cate_feature, data=train_data, stat="density") plt.xlabel(cate_feature) plt.ylabel('Density') plt.subplot(7, 2, 2 * i + 2) sns.lineplot(x=cate_feature, y='Survived', data=train_data) plt.xlabel(cate_feature) plt.ylabel('Survived') plt.show() # 绘制点状的相关系数热图 plt.figure(figsize=(12, 8)) sns.heatmap(train_data_selected.corr(), vmin=-1, vmax=1, annot=True) plt.show() sourceRow = 891 output = pd.DataFrame({'PassengerId': test_data.PassengerId, 'Survived': predictions}) output.head() # 保存结果 output.to_csv('gender_submission.csv', index=False) print(output) train_X, test_X, train_y, test_y = train_test_split(X_train_data, y_train_data, train_size=0.8, random_state=42) print("随机森林分类结果") y_pred_train1 = train_data.predict(train_X) y_pred_test1 = train_data.predict(test_X) accuracy_train1 = accuracy_score(train_y, y_pred_train1) accuracy_test1 = accuracy_score(test_y, y_pred_test1) print("训练集——随机森林分类器准确率为：", accuracy_train1) print("测试集——随机森林分类器准确率为：", accuracy_train1)

在你的代码中，你正在尝试从 train_data 对象上调用一个名为 "predict" 的方法，而 train_data 实际上是一个 DataFrame 对象，该对象并没有 "predict" 方法。你应该使用你之前定义的随机森林分类器对象 ...

import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.linear_model import LogisticRegression '''导入数据并粗略查看情况''' train_data = pd.read_csv(r'C:\Users\86181\Desktop\titanic\train.csv') test_data = pd.read_csv(r'C:\Users\86181\Desktop\titanic\test.csv') print(train_data.head()) print(np.sum(pd.isnull(train_data)))#查看缺失的信息 '''SibSp为兄弟妹的个数，Parch为父母与小孩的个数，Embarked为登船港口''' '''数据清洗''' train_data = train_data.drop(['PassengerId', 'Name', 'Ticket','Cabin'], axis = 1)#删除无关项 test_data = test_data.drop(['PassengerId', 'Name', 'Ticket','Cabin'], axis = 1) print(train_data.head()) train_data = train_data.dropna(axis = 0) print(np.sum(pd.isnull(train_data)))#再次查看是否还有缺失的信息 '''查看数据的总体情况''' train_data['Age'].hist() plt.xlabel('Age') plt.ylabel('Numbers of passengers') plt.title('The age of all passengers') plt.show() train_data['Pclass'].hist() plt.xlabel("'Passengers' class") plt.ylabel('Numbers of passengers') plt.title('The class of all passengers') plt.show() train_data['Sex'].hist() plt.xlabel("Sex") plt.ylabel('Numbers of passengers') plt.title('The sex of all passengers') plt.show() train_data['SibSp'].hist() plt.xlabel("The number of SibSp") plt.ylabel('Numbers of passengers') plt.title('The SibSp of all passengers') plt.show() train_data['Parch'].hist() plt.xlabel("The number of Parch") plt.ylabel('Numbers of passengers') plt.title('The Parch of all passengers') plt.show() train_data['Fare'].hist() plt.xlabel("Fare") plt.ylabel('Numbers of passengers') plt.title('The fare of all passengers') plt.show() train_data['Embarked'].hist() plt.xlabel("Embarked") plt.ylabel('Embarked of passengers') plt.title('The Embarked of all passengers') plt.show() train_data['Survived'].hist() plt.xlabel("Survived") plt.ylabel('Numbers of passengers') plt.title('Survived passengers') plt.show() '''开始分析''' X_train = train_data[['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']] Y_train = train_data[['Survived']] X_train = pd.get_dummies(train_data, columns = ['Pclass']) X_train = pd.get_dummies(train_data, columns = ['Embarked']) X_train['Sex'].replace('female', 0, inplace = True) X_train['Sex'].replace('male', 1, inplace = True) print(X_train.head()) print(np.sum(pd.isnull(X_train)))

这段Python代码的作用是：导入一些常用的数据分析和可视化库（numpy、pandas、matplotlib、sklearn），然后使用pandas读取Titanic数据集中的训练集和测试集。而后打印出训练集的前五行数据，以及训练集中每列的缺失...

import numpy as np import pandas as pd from sklearn.model_selection import train_test_split df = pd.read_csv("data/train.csv", encoding='utf8') df_X = df[['PassengerId', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']] df_Y = df['Survived'] # train_X, test_X, train_Y, test_Y train_test_split(df_X.values, df_Y.values, test_size=0.2, random_state=1314) print("train_X.count:{}, test_X.count:{}, train_Y.count:{}, test_Y.count:{}").format(len(train_X), len(test_X), len(train_Y), len(test_X))怎么改

df_X = df[['PassengerId', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']] df_Y = df['Survived'] # train_X, test_X, train_Y, test_Y train_X, test_X, train_Y, ...

读入数据，查看数据的基本信息，并筛选如下变量作为特征（pclass, sibsp, parch, fare）, survived作为标签；

features = ['pclass', 'sibsp', 'parch', 'fare'] label = 'survived' # 获取特征和标签的数据 X = data[features] y = data[label] 通过以上步骤，我们可以读入数据、查看数据的基本信息，并筛选出特征和...

python1. 导入‘titanic’数据集，查找缺失值，并删除无效行与列，并分别打印出删除前后的大小。 ''' titanic数据集包含11个特征，分别是： Survived:0代表死亡，1代表存活 Pclass:乘客所持票类，有三种值(1,2,3) Name:乘客姓名 Sex:乘客性别 Age:乘客年龄(有缺失) SibSp:乘客兄弟姐妹/配偶的个数(整数值) Parch:乘客父母/孩子的个数(整数值) Ticket:票号(字符串) Fare:乘客所持票的价格(浮点数，0-500不等) Cabin:乘客所在船舱(有缺失) Embark:乘客登船港口:S、C、Q(有缺失) '''的代码

titanic_data.drop(['Cabin', 'Name', 'Ticket'], axis=1, inplace=True) # 删除无效列 titanic_data.dropna(inplace=True) # 删除无效行 # 输出删除前后的大小 print('删除前大小:', titanic_data.shape) ...

用决策树模型预测泰坦尼克生还判断？（训练数据：train.csv、测试数据： test.csv），一个旅客是否能够逃生与他的 Pclass、Name、Sex、Age、SibSp、 Parch、Ticket、Fare、Cabin、Embarked 等均有一定联系，能否找到这些特征和他们能否逃生之间的规律，选择对分类结果有关键作用的特征。构建决策树模型，并对决策树进行可视化，用 graphviz 将决策树呈现出来。

dot_data = tree.export_graphviz(clf, out_file=None, feature_names=train_df.drop(['Survived'], axis=1).columns, class_names=['0', '1'], filled=True, rounded=True, special_characters=True) graph = ...

用R语言复现https://www.kaggle.com/lelexy/titanic-data-science-solutions/edit的数据处理，可视化与建模过程

tree (Survived ~ Pclass + Sex + Age + SibSp + Parch + Fare + Embarked + Title, data = train, method = "class") rpart.plot::rpart.plot(tree) # 随机森林模型 rf (Survived ~ Pclass + Sex + Age + SibSp + ...

将https://www.kaggle.com/code/startupsci/titanic-data-science-solutions的python代码转换成R语言实现数据处理、可视化与建模过程

dataset['FamilySize'] = dataset['SibSp'] + dataset['Parch'] + 1 dataset['IsAlone'] = 0 dataset.loc[dataset['FamilySize'] == 1, 'IsAlone'] = 1 # 删除无用特征 drop_elements = ['PassengerId', 'Name',...

# 其中result为模型的预测结果 pd.DataFrame({'Survived':result}).to_csv('./predict.csv', index=False)

selected_features = ['Pclass', 'Sex', 'Age', 'Embarked', 'SibSp', 'Parch', 'Fare'] train_data = train_data[selected_features] test_data = test_data[selected_features[1:]] # 缺失值处理 train_data['Age...

在右侧编辑器补充代码，完成泰坦尼克号生还预测问题，需要将预测结果保存在./predict.csv文件中。文件保存格式如图所示：可以使用如下代码： # 其中result为模型的预测结果 pd.DataFrame({'Survived':result}).to_csv('./predict.csv', index=False) 需要用到的训练集保存在./train.csv文件中，测试集保存在./test.csv文件中（测试集中没有Survived这一列）。

selected_features = ['Pclass', 'Sex', 'Age', 'Embarked', 'SibSp', 'Parch', 'Fare'] train_data = train_data[selected_features] test_data = test_data[selected_features[1:]] # 缺失值处理 train_data['Age...

（1）使用KNN算法对泰坦尼克号数据集进行分类（2）使用测试集测试训练好的模型，并打印准确率

data = data[['Survived', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']] data['Sex'] = data['Sex'].map({'male': 0, 'female': 1}) data['Embarked'] = data['Embarked'].map({'S': 0, 'C': 1,...

1. 利用随机森林求出Titanic数据集的训练集及测试集预测准确率。 2. 跑出影响因素的重要性排序图。 3. 跑出随机森林收敛图。 4. 将代码列出。

features = data[['Pclass', 'Age', 'SibSp', 'Parch', 'Fare', 'Sex', 'Embarked']] target = data['Survived'] # 特征处理 features['Age'] = features['Age'].fillna(features['Age'].mean()) features['Fare'] ...

1. 对泰坦尼克号数据进行分析，寻找影响乘客的生还率的因素； 2. 对泰坦尼克号数据进行预处理，填充缺失数据、进行数据编码、选择合适特征； 3. 采用逻辑回归、KNN、决策树、随机森林算法进行模型训练，并输出结果。代码

sns.barplot(x='SibSp', y='Survived', data=train_data) # 家庭成员数量对生还率的影响 sns.barplot(x='Embarked', y='Survived', data=train_data) # 登船港口对生还率的影响 2. 对泰坦尼克号数据进行预处理...

使用逻辑回归训练模型（max_iter=10000）对泰坦尼克号乘客生存预测，输出预测结果（截屏）

features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked'] train_features = train_data[features] train_labels = train_data['Survived'] test_features = test_data[features] # 特征预处理 ...

在学习通下载数据titanic_train.csv。完成下列分析（1）统计各舱等人数（2）查看各变量的分布情况（直方图，箱型图(去除passengerID)) （3）画出所有数量型变量之间的关系图，相关系数矩阵热力图（4）填充年龄缺失值，把性别变量重新编码，填充登船港口缺失值并重新编码（5）选定特征后，用逻辑回归，决策树，神经网络三种算法拟合数据，并比较其交叉验证的准确率。

cols = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked', 'Survived'] df = df[cols] # 逻辑回归 X = df.drop('Survived', axis=1) y = df['Survived'] lr = LogisticRegression() scores = cross_...

YOLOv3-训练-修剪.zip

YOLOv3-训练-修剪YOLOv3-训练-修剪的Python3.6、Pytorch 1.1及以上，numpy>1.16，tensorboard=1.13以上YOLOv3的训练参考[博客]（https://blog.csdn.net/qq_34795071/article/details/90769094 ）基于的ultralytics/yolov3代码大家也可以看下这个https://github.com/tanluren/yolov3-channel-and-layer-pruning正常训练（基线）python train.py --data data/VHR.data --cfg cfg/yolov3.cfg --weights/yolov3.weights --epochs 100 --batch-size 32 #后面的epochs自行更改直接加载weights可以更好的收敛剪枝算法介绍本代码基于论文Learning Efficient Convolutional Networks Through Network Slimming (ICCV

相关推荐

dataprocessing_on_titanicdata

kaggle_titanic_data.zip

Titanic-data

读入数据，查看数据的基本信息，并筛选如下变量作为特征（pclass, sibsp, parch, fare）, survived作为标签；

用R语言复现https://www.kaggle.com/lelexy/titanic-data-science-solutions/edit的数据处理，可视化与建模过程

将https://www.kaggle.com/code/startupsci/titanic-data-science-solutions的python代码转换成R语言实现数据处理、可视化与建模过程

# 其中result为模型的预测结果 pd.DataFrame({'Survived':result}).to_csv('./predict.csv', index=False)

（1）使用KNN算法对泰坦尼克号数据集进行分类 （2）使用测试集测试训练好的模型，并打印准确率

1. 利用随机森林求出Titanic数据集的训练集及测试集预测准确率。 2. 跑出影响因素的重要性排序图。 3. 跑出随机森林收敛图。 4. 将代码列出。

1. 对泰坦尼克号数据进行分析，寻找影响乘客的生还率的因素； 2. 对泰坦尼克号数据进行预处理，填充缺失数据、进行数据编码、选择合适特征； 3. 采用逻辑回归、KNN、决策树、随机森林算法进行模型训练，并输出结果。代码

使用逻辑回归训练模型（max_iter=10000）对泰坦尼克号乘客生存预测，输出预测结果（截屏）

YOLOv3-训练-修剪.zip

最新推荐

YOLOv3-训练-修剪.zip

毕业设计&课设_智能算法中台管理系统.zip

YOLO v2 的实现，用于在检测层内直接进行面部识别 .zip

KDDCUP-2020-AutoGraph-1st-Place-master

使用 YOLO 和 FaceNet 进行实时人脸识别.zip

JHU荣誉单变量微积分课程教案介绍

管理建模和仿真的文件

【实战篇：自定义损失函数】：构建独特损失函数解决特定问题，优化模型性能

如何在ZYNQMP平台上配置TUSB1210 USB接口芯片以实现Host模式，并确保与Linux内核的兼容性？

Naruto爱好者必备CLI测试应用

（1）使用KNN算法对泰坦尼克号数据集进行分类（2）使用测试集测试训练好的模型，并打印准确率