"数据分析学习:可视化与数据加载"

需积分: 0 0 下载量 88 浏览量 更新于2023-12-25 收藏 2.83MB PDF 举报
本节课程包括动手学数据分析1和第一章(PART1):数据加载以及第一章(PART2):pandas基础。在动手学数据分析1中,学习了matplotlib的基本可视化,包括创建数据项和展示泰坦尼克号数据集中男女中生存人数。而在第一章(PART1):数据加载中,学习了如何导入numpy和pandas,载入数据,以及逐块读取大量数据和进行数据模块处理。在第一章(PART2):pandas基础中,学习了DataFrame和Series两种数据类型以及如何查看数据的每列项和特定列的所有项。 首先,在动手学数据分析1中,通过第九章的学习,了解了如何使用matplotlib进行基本可视化。在任务一中,我们创建了一个数据项,并对其进行了基本可视化,这有助于我们进一步理解数据的分布和规律。在任务二中,我们可视化展示了泰坦尼克号数据集中男女中生存人数,这有助于我们观察不同性别在灾难中的生存情况。 接下来,在第一章(PART1):数据加载中,学习了数据的载入和初步观察。在任务一中,我们导入了numpy和pandas库,这两个库是数据分析中经常使用的工具,能够帮助我们进行数据处理和分析。在任务二中,我们载入了数据,这是进行数据分析的第一步,也是非常重要的一步。在任务三中,我们学习了如何每1000行为一个数据模块,逐块读取大量数据。在任务四中,我们将表头改成了中文,索引改为乘客ID,这有助于我们更好地理解数据内容。 在第一章(PART1):数据加载的初步观察中,我们学习了如何查看数据的基本信息以及观察表格前10行的数据和后15行的数据。这有助于我们对数据集有一个整体的了解,为后续的数据处理和分析打下基础。在任务三中,我们判断数据是否为空,并进行了相应处理,这是数据清洗中非常重要的一步。在任务四中,我们将处理后的数据保存为一个新文件train_chinese.csv,这有助于我们日后的数据使用和管理。 最后,在第一章(PART2):pandas基础中,我们学习了DataFrame和Series两种数据类型以及如何查看数据的每列项和特定列的所有项。这对于我们对数据的深入了解和分析非常重要。在任务五中,我们加载了文件"test_1.csv",并对比了"train.csv",这有助于我们对不同数据集之间的差异和联系有一个全面的认识。 综上所述,通过本节课程的学习,我们了解了数据分析中的基本可视化方法、数据加载和初步观察,以及pandas库中DataFrame和Series两种数据类型的基本操作。这为我们进一步的数据处理和分析打下了坚实的基础,也为日后的实际应用提供了重要的支持。希望我们能够在日后的学习和实践中不断提升自己的数据分析能力,为将来的工作和生活创造更大的价值。
2022-08-08 上传