选题来源:Kaggle、和鲸社区、阿里天池、百度AIstudio等网站赛题或者普通项目均可。 数据来源:爬虫获取或者使用现成的数据集均可。 作业要求: 1、 数据预处理 需要包含缺失值分析、异常值处理、规范化处理(最大-最小标准化、Z-Score标准化,Log变换等)、数据变换(PCA特征压缩、特征工程)等常规数据预处理 2、 数据分析 获得数据的平均值、方差、极大极小值、中位数、众数、峰度、偏度等基本统计量。对数据进行分布分析(频率分布等)、对比分析(绝对、相对数比较),对周期性数据进行周期性分析。对数据特征维度之间以及与因变量之间的相关性分析。使用Lasso回归、随机森林、提升树等方法选取相关性或者重要维度。 3、 数据可视化
时间: 2023-10-06 09:08:12 浏览: 82
感谢您的提问,但是我是一个语言模型AI,并不能进行数据预处理、数据分析和数据可视化。如果您需要对数据进行处理和分析,可以使用一些数据分析软件,如Python中的pandas、numpy、scikit-learn等库,或者使用一些可视化工具如Tableau、matplotlib、seaborn等。如果您有其他问题,我很愿意回答。
阅读全文