数据提取技术在编程中的应用

版权申诉
0 下载量 118 浏览量 更新于2024-10-12 收藏 7KB RAR 举报
资源摘要信息:"在标题中,‘代码’这个词汇指的是编写计算机程序或者软件时所使用的编程语言的指令和语句的集合。‘day1’可能表明这是某个教程或课程的第一天,或者第一天的工作内容。描述中的‘数据变量,提取数据’暗示着本节内容将涉及到变量在编程中的使用以及如何从数据集中提取或处理数据。标签‘代码’再次强调了本文件内容是与编程相关的。在文件名称列表中,‘day1’的出现进一步确认了这可能是一个教学或项目进程的开始阶段。综合这些信息,本知识点将围绕编程入门,特别是变量的定义、作用以及数据提取技术进行展开。" 编程入门 1. 理解编程语言:了解基本的编程语言概念,比如变量、数据类型、控制结构和函数等。 2. 变量的定义:变量是用于存储信息的命名位置。在编程中,变量拥有数据类型,用来决定变量可以存储什么类型的数据。 3. 数据类型:包括基本数据类型(如整数、浮点数、字符和布尔值)和复杂数据类型(如数组、结构体和对象)。 4. 变量的声明与赋值:在编写代码前需要声明变量,并赋予初始值,以便程序运行时使用。 5. 变量的作用域和生命周期:理解变量在何处有效(作用域)以及变量存在多长时间(生命周期)是至关重要的。 数据处理与提取 1. 数据获取:数据可以通过多种方式获取,包括用户输入、文件读取、网络请求等。 2. 数据提取技术:根据数据的存储格式(如CSV、JSON、XML等),使用不同的解析方法来提取所需数据。 3. 数据清洗:在提取数据后,通常需要进行数据清洗,去除不完整、错误或无关数据。 4. 数据转换:将原始数据转换成适合程序处理的格式,包括数据类型转换、数据结构转换等。 5. 数据存储:将处理后的数据存储到适当的存储系统中,例如数据库、文件系统等。 编程实践 1. 编程环境搭建:设置开发环境,包括安装编程语言环境、配置编辑器或集成开发环境(IDE)。 2. 编写简单的程序:从简单的“Hello World”程序开始,逐步编写更复杂的代码。 3. 调试与测试:学习如何使用调试工具检查代码错误,并进行单元测试以确保程序功能正确。 4. 版本控制:使用版本控制系统(如Git)管理代码变更,便于团队协作和代码版本管理。 在本节课程或工作内容中,我们预期将会学习到如何定义和使用变量,如何从不同的数据源提取数据,并进行初步的处理和存储。这些是编写有效程序的基础技能,不仅限于初学者,也是提升编程能力的关键步骤。通过理解变量和数据提取的重要性,学习者将能够更好地掌握编程的精髓,并在处理更复杂的编程任务时,拥有坚实的基础。

保留原本功能优化以下代码import pandas as pd import numpy as np import matplotlib.pyplot as plt # 1.读取并查看数据 bike_day = pd.read_csv("C:/Users/15020/Desktop/26.bike_day.csv") print(bike_day.head(5)) # 前5行 print(bike_day.tail(2)) #后2行 #2.处理数据并导出到文件 bike_day_user = bike_day[['instant','dteday','yr', 'casual', 'registered']].dropna() bike_day_user.to_csv('bike_day_user.txt', sep=' ',index=False, header=False) #3.读取数据并添加新列并导出到新文件 bike_day_user = pd.read_csv('bike_day_user.txt', sep=' ', header=None, names=['instant','dteday','yr', 'casual',"registered"]) bike_day_user['cnt'] = bike_day_user['casual'] + bike_day_user['registered'] bike_day_user.to_excel('bike_day_user_cnt.xlsx', index=False) #4.读取数据并进行统计 bike_day_user_cnt = pd.read_excel('bike_day_user_cnt.xlsx') print('cnt最大值:',bike_day_user_cnt['cnt'].max()) print('ent最小值:',bike_day_user_cnt['cnt'].min()) print('2011号cnt年平均值:',bike_day_user_cnt[bike_day_user_cnt['yr'] == 0]['cnt'].mean()) print('2012年cnt年平均值:',bike_day_user_cnt[bike_day_user_cnt['yr'] == 1]['cnt'].mean()) print('2011年月严始值:', bike_day_user_cnt[bike_day_user_cnt['yr'] == 0].groupby('mnth')['cnt'].mean()) print('2022年月平均值:', bike_day_user_cnt[bike_day_user_cnt['yr'] == 1].groupby('mnth')['cnt'].mean()) # 5.可视化并保存图像 fig, ax = plt.subplots() ax.barh(bike_day_user_cnt['mnth'], bike_day_user_cnt[bike_day_user_cnt['yr'] == 0].groupby('mnth')['cnt'].mean(), color='blue', label='2011') ax.barh(bike_day_user_cnt['mnth'], bike_day_user_cnt[bike_day_user_cnt['yr'] == 1].groupby('mnth')['cnt'].mean(), color='lightblue', label='2012') ax.set_yticks(np.arange(1,13)) ax.set_yticklabels(['Jan','Feb','Mar', 'Apr', 'May','Jun','Jul','Aug', 'sep', 'Oct','Nov','Dec']) ax.set_xlabel('Average number of shared bike users') ax.set_title('Monthly Average Number of Shared Bike Users in 2011-2012') ax.legend() fig.savefig('bike_day_user_cnt.png', dpi=300)

2023-06-03 上传