ffrom sklearn import preprocessing data_pre=pd.read_csv('newdata.csv',encoding='utf-8') data_pre.head() le = preprocessing.LabelEncoder() data_pre['面积'] = data_pre['面积'].str.replace('平米', '').astype(float) x1=le.fit(data_pre['行政地区'].unique()).transform(data_pre['行政地区']) x2=le.fit(data_pre['户型'].unique()).transform(data_pre['户型']) x3=data_pre['面积'] x4=le.fit(data_pre['装修情况'].unique()).transform(data_pre['装修情况']) x5=le.fit(data_pre['配备电梯'].unique()).transform(data_pre['配备电梯']) x6=le.fit(data_pre['小区名称'].unique()).transform(data_pre['小区名称']) x=np.mat([x1,x2,x3,x4,x5,x6]).T.A y_pred=rf.predict(x) print ('######') result=pd.DataFrame() result['行政地区']=data_pre['行政地区'] result['小区名称']=data_pre['小区名称'] result['真实值']=data_pre['平米价'] result['预测值']=y_pred.round(2) result.head() result.to_csv("house_pre.csv",encoding='gb18030')
时间: 2023-06-13 20:05:47 浏览: 84
这段代码是用来对房价进行预测的,使用了sklearn中的preprocessing模块中的LabelEncoder()函数来对数据进行编码,然后使用随机森林模型进行预测。其中x1、x2、x3、x4、x5、x6分别代表了行政地区、户型、面积、装修情况、配备电梯和小区名称这些特征的编码后的值。然后将这些特征编码后的值和真实值一起存储到一个结果DataFrame中,并将其保存到一个csv文件中。
相关问题
import pandas as pd data = pd.read_csv(r"D:\BaiduNetdiskDownload\sklearn_dhios\数据集\Narrativedata.csv",index_col=0) from sklearn.preprocessing import LabelEncoder data.iloc[:,-1]=LabelEncoder().fit_transform(data.iloc[:,-1]) from sklearn.preprocessing import OrdinalEncoder data_=data.copy() data_.iloc[:,1:-1] OrdinalEncoder().fit(data_.iloc[:,1:-1]).categories_
你想问的是,如何使用sklearn的OrdinalEncoder对数据集进行编码并获取编码后的类别列表,对吗?
以下是编码数据集并获取编码后的类别列表的代码示例:
```python
import pandas as pd
from sklearn.preprocessing import OrdinalEncoder
data = pd.read_csv(r"D:\BaiduNetdiskDownload\sklearn_dhios\数据集\Narrativedata.csv", index_col=0)
# 使用LabelEncoder对目标变量进行编码
from sklearn.preprocessing import LabelEncoder
data.iloc[:, -1] = LabelEncoder().fit_transform(data.iloc[:, -1])
data_ = data.copy()
# 使用OrdinalEncoder对特征变量进行编码
encoder = OrdinalEncoder()
encoded_data = encoder.fit_transform(data_.iloc[:, 1:-1])
# 获取编码后的类别列表
categories = encoder.categories_
print(categories)
```
这段代码首先使用pandas库的`read_csv`函数读取csv文件,并使用LabelEncoder对目标变量进行编码。然后,使用OrdinalEncoder对特征变量进行编码,并将编码后的数据保存在`encoded_data`中。最后,通过`encoder.categories_`获取特征变量的编码后的类别列表,并打印输出。
请确保文件路径正确,并且已经安装了所需的库。希望对你有帮助!如果你还有其他问题,请随时提问。
import numpy as np import pandas import pandas as pd import matplotlib from sklearn import naive_bayes from sklearn.preprocessing import MinMaxScaler from sklearn.preprocessing import StandardScaler from sklearn.preprocessing import normalize from sklearn.preprocessing import Binarizer from sklearn.impute import SimpleImputer from sklearn.preprocessing import OneHotEncoder import matplotlib.pyplot as plt from sklearn.metrics import roc_curve, auc from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn.metrics import confusion_matrix matplotlib.rc("font", family='Microsoft YaHei') data=pd.read_csv(r'D:\杂货铺\机器学习\银行数据集.csv',header=None)
这段代码导入了一系列的Python库,包括NumPy、Pandas、Matplotlib、scikit-learn等。其中,NumPy是Python科学计算的核心库,Pandas是数据处理的重要库,Matplotlib是绘图库,scikit-learn是机器学习库。接下来,使用Pandas读取一个CSV文件,该文件路径为D:\杂货铺\机器学习\银行数据集.csv,文件没有列名,所以header参数设置为None。
阅读全文