python读取文件夹多个xlsx文件并对每个文件的列数据进行处理后将处理后的数据自定义列名另存保存

时间: 2023-10-21 19:03:59 浏览: 97

Python读取xlsx文件的实现方法

### Python读取xlsx文件的方法详解 #### 一、前言在数据分析领域，Excel文件（尤其是.xlsx格式）是非常常见的数据存储格式。Python作为一种强大的编程语言，提供了多种库用于处理这类文件，例如`openpyxl`和`xlrd`。本文将详细介绍如何使用Python中的`openpyxl`库来读取.xlsx文件，并通过一个具体的示例来演示如何利用Python进行数据的分类统计。 #### 二、使用`openpyxl`读取xlsx文件 ##### 1. 安装`openpyxl` 在开始之前，确保已经安装了`openpyxl`库。可以通过pip命令进行安装： ```bash pip install openpyxl ``` ##### 2. 读取xlsx文件的基本步骤 - **加载工作簿**：使用`load_workbook`函数加载指定路径下的.xlsx文件。 - **选择工作表**：获取当前活跃的工作表或指定某个具体的工作表。 - **读取数据**：遍历行和列获取数据。 ##### 3. 示例代码解析 ```python from openpyxl import load_workbook # 加载工作簿 workbook = load_workbook('/tmp/test.xlsx') # 获取当前活跃的工作表 booksheet = workbook.active # 如果需要获取其他工作表 # sheets = workbook.sheetnames # booksheet = workbook[sheets[1]] # 获取sheet页的行数据 rows = booksheet.rows # 获取sheet页的列数据 columns = booksheet.columns # 迭代所有的行 i = 0 for row in rows: i += 1 line = [col.value for col in row] cell_data_1 = booksheet.cell(row=i, column=3).value cell_data_2 = booksheet.cell(row=i, column=4).value cell_data_3 = booksheet.cell(row=i, column=8).value cell_data_4 = booksheet.cell(row=i, column=18).value print(cell_data_1, cell_data_2, cell_data_3, cell_data_4) ``` - **加载工作簿**：通过`load_workbook`函数加载名为`test.xlsx`的文件。 - **获取工作表**：通过`.active`属性获取第一个工作表。 - **读取行和列**：使用`rows`和`columns`属性读取整个工作表的行和列。 - **访问单元格**：使用`cell`方法读取指定单元格的数据。 #### 三、实例：Python读取Excel数据并进行分类统计 ##### 1. 准备工作 - 确保已经安装`xlrd`库。 - 有一个包含通话记录的Excel文件`src.xls`。 ##### 2. 实现代码 ```python import xlrd import datetime # 打开Excel文件 info_file = xlrd.open_workbook('src.xls') # 通过索引顺序获取工作表 info_sheet = info_file.sheets()[0] # 获取行数 row_count = info_sheet.nrows # 初始化统计数据 time_all = datetime.timedelta(seconds=0) time_types = {} time_classes = {} time_numbers = {} # 遍历每行数据 for row in range(1, row_count): # 解析时间字符串 time_string = info_sheet.cell(row, 3).value time_s_sp = time_string.split(':') # 构造数据字典 data = { 'type': info_sheet.cell(row, 2).value, # 通话类型 'other_cellphone': info_sheet.cell(row, 0).value, # 对方号码 'timespan': datetime.timedelta(seconds=int(time_s_sp[2]), minutes=int(time_s_sp[1]), hours=int(time_s_sp[0])), 'gpscity': info_sheet.cell(row, 5).value # 通话地点 } # 统计总通话时间 time_all += data['timespan'] # 按通话类型统计通话时间 if data['type'] in time_types: time_types[data['type']] += data['timespan'] else: time_types[data['type']] = data['timespan'] # 按通话地点统计通话时间 if data['gpscity'] in time_classes: time_classes[data['gpscity']] += data['timespan'] else: time_classes[data['gpscity']] = data['timespan'] # 按通话号码统计通话时间 if data['other_cellphone'] in time_numbers: time_numbers[data['other_cellphone']] += data['timespan'] else: time_numbers[data['other_cellphone']] = data['timespan'] # 输出统计结果 print("总通话时长:", time_all) print("按通话类型统计:") for key, value in time_types.items(): print(key, ":", value) print("按通话地点统计:") for key, value in time_classes.items(): print(key, ":", value) print("按通话号码统计:") for key, value in time_numbers.items(): print(key, ":", value) ``` ##### 3. 代码解释 - **读取Excel文件**：使用`xlrd.open_workbook`打开文件`src.xls`。 - **获取工作表**：通过索引获取第一个工作表。 - **处理每行数据**：遍历每行，解析时间字符串，构建数据字典。 - **统计数据**：统计总通话时间、按类型、按地点和按号码分类统计通话时间。 #### 四、总结通过上述示例代码，我们可以看到`openpyxl`和`xlrd`库都为Python提供了强大的Excel文件读取能力。无论是简单的数据读取还是复杂的统计分析，这两个库都能提供有效的支持。掌握这些技能将有助于提升你在数据分析项目中的效率和准确性。

以下是一个示例代码，读取文件夹内所有的xlsx文件，对每个文件的第一列进行平方操作，并将处理后的数据保存到新的文件中。 ```python import os import pandas as pd # 定义文件夹路径和新文件保存路径 folder_path = 'path/to/folder' save_path = 'path/to/save/newfile.xlsx' # 定义自定义列名 column_name = 'new_column_name' # 获取文件夹内所有xlsx文件的文件名 file_names = [f for f in os.listdir(folder_path) if f.endswith('.xlsx')] # 遍历每个文件，读取数据进行处理 for file_name in file_names: # 读取文件数据 file_path = os.path.join(folder_path, file_name) data = pd.read_excel(file_path) # 对第一列进行平方操作 data[column_name] = data.iloc[:, 0] ** 2 # 保存处理后的数据到新文件 with pd.ExcelWriter(save_path, mode='a') as writer: data.to_excel(writer, sheet_name=file_name, index=False) ``` 上述代码中，使用了pandas库来读取和处理数据，os库来获取文件名和拼接路径。代码中定义了文件夹路径和新文件保存路径，自定义列名以及获取文件名的方式。对于每个文件，先读取数据，对第一列进行平方操作，再将处理后的数据保存到新文件中。注意，保存数据时需要使用`ExcelWriter`对象，并指定保存的sheet名和不包含索引列。

阅读全文

python读取文件夹多个xlsx文件并对每个文件的列数据进行处理后将处理后的数据自定义列名另存保存

相关推荐

python实现读取一个文件夹下所有文件的文件名，保存到excel中

python读取xlsx的方法

python 读取文件夹下的子文件 xlsx，csv

python3读取csv和xlsx文件的实例

python使用xlrd模块读取xlsx文件中的ip方法

基于openpyxl的python读取和写入xlsx文件的实现

read_xlsx：在Python3中读取XLSX文件

python实现读取文件夹下所有excel文件内容上传MySQL数据库，并附带生成log文件，同时上传成功之后清空文件夹

Python批量将文件夹中xls文件批量转换为xlsx

Python读取xlsx数据生成图标代码实例

python代码合并多个电子表格xlsx文件.docx

python xlsx格式数据的处理，指定列的分句同时指定列的复制保存代码

python解密带密码的xlsx文件，重新写出

python遍历文件夹下所有excel文件

Python pandas库读取.xlsx文件教程

基于net的超市管理系统源代码（完整前后端+sqlserver+说明文档+LW）.zip

最新推荐

Python数据处理课程设计-房屋价格预测

python遍历文件夹下所有excel文件

使用 Python 合并多个格式一致的 Excel 文件(推荐)

python批量处理txt文件的实例代码

Python应用实现处理excel数据过程解析

Windows平台下的Fastboot工具使用指南

管理建模和仿真的文件

DLMS规约深度剖析：从基础到电力通信标准的全面掌握

修改代码，使其正确运行

Python机器学习基础入门与项目实践