没有合适的资源?快使用搜索试试~ 我知道了~
首页Python数据挖掘之数据预处理
Python数据挖掘之数据预处理
5.3k 浏览量
更新于2023-05-22
评论 8
收藏 116KB PDF 举报
目录Python主要数据预处理函数1、interpolate2、unique3、isnull / notnull4、andom5、PCA Python主要数据预处理函数 在数据挖掘中,海量的原始数据中存在着大量不完整(有缺失值)、不一致、有异常的数据,严重影响到数据挖掘建模的执行效率,甚至可能导致挖掘结果的偏差,所以进行数据清洗就显得尤为重要,数据清洗完成后接着进行或者同时进行数据集成、转换、规约等一系列的处理,该过程就是数据预处理。数据预处理一方面是要提高数据的质量,另一方面是要让数据更好地适应特定的挖掘技术或工具。统计发现,在数据挖掘的过程中,数据预处理工作量占到了整个过程的60%。
资源详情
资源评论
资源推荐

Python数据挖掘之数据预处理数据挖掘之数据预处理
目录目录Python主要数据预处理函数1、interpolate2、unique3、isnull / notnull4、andom5、PCA
Python主要数据预处理函数主要数据预处理函数
在数据挖掘中,海量的原始数据中存在着大量不完整(有缺失值)、不一致、有异常的数据,严重影响到数据挖掘建模的执行效
率,甚至可能导致挖掘结果的偏差,所以进行数据清洗就显得尤为重要,数据清洗完成后接着进行或者同时进行数据集成、转
换、规约等一系列的处理,该过程就是数据预处理。数据预处理一方面是要提高数据的质量,另一方面是要让数据更好地适应
特定的挖掘技术或工具。统计发现,在数据挖掘的过程中,数据预处理工作量占到了整个过程的60%。
数据预处理的主要内容包括数据预处理的主要内容包括:数据清洗、数据集成、数据变换和数据规约
函数名函数名 函数功能函数功能 所属拓展库所属拓展库
interpolate 一维、高维数据插值 Scipy
unique 去除数据中的重复元素,得到单值元素列表,它是对象的方法名 Pandas/Numpy
isnull 判断是否为空 Pandas
notnull 判断是否非空 Pandas
PCA 对指标变量矩阵进行主成分分析 Scikit-Learn
random 生成随机矩阵 Numpy
1、、interpolate
功能:功能: interpolate是Scipy的一一个子库,包含了大量的插值函数,如拉格朗日插值、样条插值、高维插值等。使用前需要用
from scipy.interpolate import *引入相应的插值函数,可以根据需要到官网查找对应的函数名。
使用格式:使用格式:
f = scipy.interpolate.lagrange(x,y)


















安全验证
文档复制为VIP权益,开通VIP直接复制

评论0