train["Age"] = train["Age"].fillna(-0.5) test["Age"] = test["Age"].fillna(-0.5) bins = [-1, 0, 5, 12, 18, 24, 35, 60, np.inf] #将年龄分为八组 labels = ['Unknown', 'Baby', 'Child', 'Teenager', 'Student', 'Young Adult', 'Adult', 'Senior'] train['AgeGroup'] = pd.cut(train["Age"], bins, labels = labels) test['AgeGroup'] = pd.cut(test["Age"], bins, labels = labels)

这段代码对训练数据集 `train` 和测试数据集 `test` 中的 `Age` 列进行处理，将其分成 8 个年龄段，并新建一个名为 `AgeGroup` 的列来存储每个乘客所属的年龄段。具体来说，代码中的操作包括： 1. 使用 `.fillna(-0.5)` 将缺失值填充为 -0.5，这是因为后面使用 `pd.cut()` 函数时需要将缺失值分到“未知”年龄段，而 -0.5 可以作为一个特殊的标记。 2. 定义一个数组 `bins`，其中包含了每个年龄段的上下限。这里使用了一个特殊的值 `np.inf` 表示正无穷大，以确保最后一个年龄段包含所有剩余的年龄。 3. 定义一个数组 `labels`，其中包含了每个年龄段对应的标签，即 "Unknown"（未知）、"Baby"（婴儿）、"Child"（儿童）、"Teenager"（少年）、"Student"（学生）、"Young Adult"（年轻成年人）、"Adult"（成年人）和 "Senior"（老年人）。 4. 使用 `pd.cut()` 函数将 `Age` 列的数据按照 `bins` 中的上下限进行分组，并将每个分组对应的标签存储到 `AgeGroup` 列中。这个操作可以将连续型的年龄列转换为离散型的年龄段，对于一些机器学习算法来说，这种离散化的处理方式可能更加适用。

import numpy as np import pandas as pd import matplotlib.pyplot as plt from decision_tree_classifier import DecisionTreeClassifier from random_forest_classifier import RandomForestClassifier from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score #读取数据 df = pd.read_csv('adult.csv',encoding='gbk') df.head() col_names=['age','workclass','fnlwgt','education','educational-num','marital-status','occupation','relationship','race','gender','capital-gain','capital-loss','hours-per-week','native-country','income'] df.columns = col_names categorical = ['workclass','education','marital-status','occupation','relationship','race','gender','native-country','income'] # print(f'分类特征：\n{categorical}') # for var in categorical: # print(df[var].value_counts()) #缺失值处理 df['occupation'].replace('?', np.NaN, inplace=True) df['workclass'].replace('?', np.NaN, inplace=True) df['native-country'].replace('?', np.NaN, inplace=True) df.isnull().sum() df['income'].value_counts() plt.rcParams['font.sans-serif'] = ['Microsoft YaHei'] df.isnull().sum() df['workclass'].fillna(df['workclass'].mode()[0], inplace=True) df['occupation'].fillna(df['occupation'].mode()[0], inplace=True) df['native-country'].fillna(df['native-country'].mode()[0], inplace=True) df = pd.get_dummies(df,columns=categorical,drop_first=True) print(df.head()) y = df.loc[:,'income_>50K'] X = np.array(df.loc[:,['age', 'educational-num', 'hours-per-week']]) y = np.array(y) x = np.array(X) y = y.reshape(-1,1) X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=1234) from sklearn.ensemble import RandomForestClassifier rtree = RandomForestClassifier(n_estimators=100,max_depth=5,max_features=0.2,max_samples=50,random_state=1234) X_train = np.array(X_train) rtree.fit(X_train, y_train) X_test = np.array(X_test) y_pred = rtree.predict(X_test) accuracy = accuracy_score(y_test,y_pred) print("accuracy={}".format((accuracy)))我这个代码如何更换特征向量

如果想更换特征向量，只需要修改以下代码段： ``` X = np.array(df.loc[:,['age', 'educational-num', 'hours-per-week']]) y = np.array(y) ``` 将 `['age', 'educational-num', 'hours-per-week']` 替换为你想要的特征向量即可。注意要保证特征向量的格式正确，即为一个列表形式。另外，如果更换特征向量后发现模型表现不佳，可以再考虑增加或减少特征，或者对特征进行预处理等操作。

train = pd.read_csv('train.csv') #读取数值 train = train.replace(np.NaN,0) #缺失值处理 train = train.dropna() #丢弃空值 test = pd.read_csv('test.csv') #读取数值 test = test.replace(np.NaN,0) #缺失值处理 test = test.dropna() #丢弃空值 y_train= train.loc[:,'Survived'] x_train= train.loc[:,['PassengerId','Pclass','Age','Fare']] x_train['male'] = train['Sex'].map({'male':1,'female':0}) y_test= test.loc[:,'Survived'] x_test= test.loc[:,['PassengerId','Pclass','Age','Fare']] x_test['male'] = test['Sex'].map({'male':1,'female':0})

这段代码的功能是读取两个 csv 文件，分别为 `train.csv` 和 `test.csv`，然后对缺失值进行处理，使用 `dropna()` 丢弃空值。接下来，将 `train` 的标签值 `Survived` 赋给 `y_train`，将 `train` 中的 `PassengerId`, `Pclass`, `Age`, `Fare` 的数据赋给 `x_train`，并将 `Sex` 中的 `male` 映射为 1，`female` 映射为 0。最后，将 `test` 的标签值 `Survived` 赋给 `y_test`，将 `test` 中的 `PassengerId`, `Pclass`, `Age`, `Fare` 的数据赋给 `x_test`，并将 `Sex` 中的 `male` 映射为 1，`female` 映射为 0。这段代码主要是针对一个数据集进行数据预处理，从而为后续的机器学习模型提供干净的数据。

相关推荐

python 常用 示例 数据 train.csv eval.csv titanic.csv

Kaggle_Titanic_train.csv泰坦尼克数据集.zip

titannic_data.rar

y_train=train.loc[:,'Survived'] x_train=train.loc[:,['PassengerId','Pclass','Age','Fare']] x_train['male']=train['Sex'].map({'male':1,'female':0}) y_test=test.loc[:,'Survived'] x_test=test.loc[:,['PassengerId','Pclass','Age','Fare']] x_test['male']=test['Sex'].map({'male':1,'female':0})

x = df[['age']] y = df.bought_insurance X_train,X_test,y_train,y_test = train_test_split(x,y,test_size=0.33,random_state=42)

COMP_PATH = "/kaggle/input/icr-identify-age-related-conditions" train = pd.read_csv(f"{COMP_PATH}/train.csv") test = pd.read_csv(f"{COMP_PATH}/test.csv") sample_submission = pd.read_csv(f"{COMP_PATH}/sample_submission.csv") greeks = pd.read_csv(f"{COMP_PATH}/greeks.csv")

最新推荐

AzurePyblobLogging-1.0.8-py3-none-any.whl.zip

解决Eclipse配置与导入Java工程常见问题

管理建模和仿真的文件

【错误处理与调试】：Python操作MySQL的常见问题与解决之道

#include<stdio.h> void main() { char c; scanf("%c",&c); print("%d\n",c); }

真空发生器：工作原理与抽吸性能分析

"互动学习：行动中的多样性与论文攻读经历"

Python多线程与MySQL：数据一致性和性能优化挑战的解决方案

DATEDIFF(u1.actmonth, t2.latest_usage) = 1

爱立信RBS6201开站流程详解

python 常用示例数据 train.csv eval.csv titanic.csv