零基础：数据挖掘实战-二手车价格预测与内存优化（建模与调参）

151 浏览量更新于2024-08-30 收藏 177KB PDF 举报

本篇文章是针对零基础入门者设计的，专注于数据挖掘在二手车交易价格预测中的应用，特别是在建模和调参方面的实践。在第三天的内容中，作者详细讲解了如何进行数据预处理，特别是减少数据在内存中的占用空间。首先，文章提到通过`reduce_mem_usage`函数来优化数据类型，以降低数据存储需求。这个函数逐列检查DataFrame，如果某列的数据类型不是对象类型（如数值或类别），则会检查其最小值和最大值。如果该列包含整数，函数会根据整数范围大小决定将其转换为`np.int8`、`np.int16`等更节省内存的数据类型；如果数值型，会选择`np.float16`、`np.float32`等类型，直到满足数据精度要求且不超过可用的最大值。对于非整数的非对象类型，会转换为`category`类型，进一步减小内存占用。其次，文章介绍了线性回归作为基本模型，这是一种简单的预测方法，通过寻找自变量和因变量之间的线性关系来估计二手车价格。接着，引入了Lasso回归和岭回归作为增强版的线性模型，它们分别使用L1和L2正则化技术来控制模型复杂度。Lasso回归通过L1惩罚项鼓励模型中部分特征系数为零，实现特征选择；而岭回归则是通过L2惩罚项使得所有特征系数保持较小但非零，防止过拟合。这两种模型在处理具有大量特征的数据集时，能够提高模型的稳定性和泛化能力。五折交叉验证在文中也被提及，用于评估模型性能。然而，它并不适用于所有场景，特别是在时间序列数据中，因为五折可能忽略了时间序列的连续性和依赖性。因此，需要谨慎应用并考虑数据的特性。最后，文章还涵盖了绘制学习率曲线和验证曲线，这是评估模型训练过程中的表现和调整超参数的重要工具。学习率曲线展示了不同学习率对模型性能的影响，验证曲线则展示了训练误差和验证误差随模型复杂度变化的趋势，有助于找到最佳模型平衡点。本文提供了实用的步骤和方法，让初学者能够理解和应用数据挖掘技术，特别是在二手车交易价格预测中，如何有效地进行数据处理、模型选择以及调优。通过这些技术，用户可以更好地理解和预测二手车的价格，从而做出更为精确的商业决策。

零基础入门数据挖掘零基础入门数据挖掘-二手车交易价格预测（二手车交易价格预测（Day3建模调参）建模调参）

目录目录减少数据在内存中占用的空间线性回归 & 五折交叉验证 & 模拟真实业务情况简单建模五折交叉验证事实上,五折交叉验证在

某些与时间相关的数据集上反而反映了不真实的情况绘制学习率曲线与验证曲线嵌入式特征选择 – 大部分情况下都是用嵌入式

做特征选择# 我们看下三种模型的效果对比:线性回归; 加入了L1的Lasso回归; 加入了L2的岭回归

减少数据在内存中占用的空间减少数据在内存中占用的空间

def reduce_mem_usage(df):

""" iterate through all the columns of a dataframe and modify the data type

to reduce memory usage.

"""

start_mem = df.memory_usage().sum()

print('Memory usage of dataframe is {:.2f} MB'.format(start_mem))

for col in df.columns:

col_type = df[col].dtype

if col_type != object:

c_min = df[col].min()

c_max = df[col].max()

if str(col_type)[:3] == 'int':

if c_min > np.iinfo(np.int8).min and c_max np.iinfo(np.int16).min and c_max np.iinfo(np.int32).min and c_max

np.iinfo(np.int64).min and c_max np.finfo(np.float16).min and c_max np.finfo(np.float32).min and c_max <

np.finfo(np.float32).max:

df[col] = df[col].astype(np.float32)

else:

df[col] = df[col].astype(np.float64)

else:

df[col] = df[col].astype('category')

end_mem = df.memory_usage().sum()

print('Memory usage after optimization is: {:.2f} MB'.format(end_mem))

print('Decreased by {:.1f}%'.format(100 * (start_mem - end_mem) / start_mem))

return df

sample_feature = reduce_mem_usage(pd.read_csv('data_for_tree.csv'))

//上一期制作好的csv

Memory usage of dataframe is 62099672.00 MB

Memory usage after optimization is: 16719236.00 MB

Decreased by 73.1%

continuous_feature_names = [x for x in sample_feature.columns if x not in ['price','brand','model','brand']]

线性回归线性回归 & 五折交叉验证五折交叉验证 & 模拟真实业务情况模拟真实业务情况

sample_feature = sample_feature.dropna().replace('-', 0).reset_index(drop=True)

sample_feature['notRepairedDamage'] = sample_feature['notRepairedDamage'].astype(np.float32)

train = sample_feature[continuous_feature_names + ['price']]

train_X = train[continuous_feature_names] train_y = train['price']

简单建模简单建模

from sklearn.linear_model import LinearRegression

model = LinearRegression(normalize=True)

model = model.fit(train_X, train_y)

绘制特征v_9的值与标签的散点图，图片发现模型的预测结果（蓝色点）与真实标签（黑色点）的分布差异较大，且部分预测值

出现了小于0的情况，说明我们的模型存在一些问题

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38655810

粉丝: 6
资源: 907

零基础：数据挖掘实战-二手车价格预测与内存优化（建模与调参）

20200401零基础入门数据挖掘 – 二手车交易价格预测笔记（4）

二手车交易价格预测学习笔记 — Task4

Datawhale 数据挖掘入门：数据分析 笔记

大数据修行基础篇------Day02.md

大数据修行基础篇------Day01.md

Linux运维-运维构架师-day61-综合架构模块-Zabbix入门-oldboy-03-监控知识基本概述（2）.mp4

day-3-coding-bootcamps-12gouravss：day-3-coding-bootcamps-12gouravss由GitHub Classroom创建

数学建模day16-预测模型，神经网络，例题一数据集

20151228-Android基础视频day07-day11源码

20151228-Android基础视频day01-day06源码

最新资源

Datawhale 数据挖掘入门：数据分析笔记