"Python数据预处理与Pandas统计分析实验报告"

版权申诉
5星 · 超过95%的资源 5 下载量 89 浏览量 更新于2024-03-03 1 收藏 2.71MB DOCX 举报
本次实验主要包括以下内容:首先是创建随机数组 x 和 y,x为二维数组样本数据,y为样本标签,分别有10000个数据。之后使用Python内置函数打乱样本及标签原始排序,并确保一一对应关系。接着从两个数组中分别随机抽取1000个样本数据和标签。此过程可利用数组下标作为标记,首先随机生成1000个指定范围内下标,然后根据下标取数据。然后根据数据属性,结合任务目标,使用文字方式分析不同属性与任务的关联性分析,并给出属性重要性排序结果。接着练习Python中基本数据存取函数的使用,包括read_table、read_csv、to_csv、read_excel、to_excel。然后练习DataFrame的常用属性查看及操作命令,包括ndim、shape、memory_usage等,查看维度、大小、内存占用等信息。最后练习pandas中时间数据处理命令。 实验过程中,我们首先创建了随机数组x和y,其中x为二维数组样本数据,y为样本标签,数量均为10000。然后使用Python内置函数打乱了样本及标签原始排序,确保了一一对应关系。接着从两个数组中分别随机抽取了1000个样本数据和标签,这一过程中运用了数组下标作为标记,并且通过随机生成1000个指定范围内的下标,再根据下标取得了数据。接下来,我们根据数据属性,结合任务目标,使用文字方式进行了分析,得出了不同属性与任务的关联性分析,同时给出了了属性重要性排序。然后我们练习了Python中基本数据存取函数的使用,包括read_table、read_csv、to_csv、read_excel、to_excel。紧接着进行了DataFrame的常用属性查看及操作命令练习,包括ndim、shape、memory_usage等,从而查看了维度、大小、内存占用等信息。最后,我们练习了pandas中时间数据处理命令。 在实验过程中,我们对各项操作进行了仔细的实操,并将实验过程中的源码和截图都整理整了,是了更好地展现实验的每个步骤,确保每一步的操作都能清晰准确地呈现。通过这次实验,我们不仅掌握了随机抽取数据及其标签,还学会了用Python来对数据进行存取,并进行DataFrame的属性查看及操作,最后也学会了pandas中时间数据处理命令。同时,通过实验的小结部分,我们对整个实验过程有了更加清晰的认识,同时也明确了自己在实验中存在的问题。通过本次实验,我们对Pandas统计分析基础与数据预处理有了更深入的了解。