需要一个python程序完成指定需求，内容如下： 1.能够解析指定地址的指定.xlsx文件，并且抓出该文件中指定的子表格中指定的某一列。同时在把该列抓取出来之前，做简单筛选，去掉重复项。 2.能够解析指定地址的指定.csv文件，并且抓出该文件中指定的某一列。 3.把1,2两步中抓取的两个不同的列数据进行对比，只要数据有不一样的地方，在指定地点创建一个TXT文件存储不一样的地方。

时间: 2024-03-01 17:50:54 浏览: 78

好的，这个需求可以通过Python实现。需要用到以下几个库：pandas、xlrd、csv。

具体实现步骤如下：

使用pandas库读取指定地址的.xlsx文件，并且抓出该文件中指定的子表格中指定的某一列。同时在把该列抓取出来之前，做简单筛选，去掉重复项。具体代码如下：

import pandas as pd

# 读取指定xlsx文件中的某个子表格，并选取指定列，去重后返回该列数据
def read_xlsx_file(file_path, sheet_name, column_name):
    df = pd.read_excel(file_path, sheet_name=sheet_name)
    selected_column = df[column_name].unique().tolist()  # 去重
    return selected_column

使用pandas库读取指定地址的.csv文件，并且抓出该文件中指定的某一列。具体代码如下：

import pandas as pd

# 读取指定csv文件中的指定列并返回
def read_csv_file(file_path, column_name):
    df = pd.read_csv(file_path)
    selected_column = df[column_name].tolist()
    return selected_column

使用difflib库，比较1,2两步中抓取的两个不同的列数据，并将结果保存至指定地点的TXT文件中。具体代码如下：

import difflib

# 将两个列表中的不同项保存至指定TXT文件
def compare_columns(column1, column2, result_file_path):
    diff = difflib.ndiff(column1, column2)
    with open(result_file_path, 'w') as f:
        for line in diff:
            if line.startswith('+') or line.startswith('-'):
                f.write(line)

最后，将上述三个函数组合起来，即可实现指定需求。

完整代码如下：

import pandas as pd
import difflib

# 读取指定xlsx文件中的某个子表格，并选取指定列，去重后返回该列数据
def read_xlsx_file(file_path, sheet_name, column_name):
    df = pd.read_excel(file_path, sheet_name=sheet_name)
    selected_column = df[column_name].unique().tolist()  # 去重
    return selected_column

# 读取指定csv文件中的指定列并返回
def read_csv_file(file_path, column_name):
    df = pd.read_csv(file_path)
    selected_column = df[column_name].tolist()
    return selected_column

# 将两个列表中的不同项保存至指定TXT文件
def compare_columns(column1, column2, result_file_path):
    diff = difflib.ndiff(column1, column2)
    with open(result_file_path, 'w') as f:
        for line in diff:
            if line.startswith('+') or line.startswith('-'):
                f.write(line)

# 测试代码
xlsx_file_path = 'test.xlsx'
xlsx_sheet_name = 'Sheet1'
xlsx_column_name = 'Name'
xlsx_selected_column = read_xlsx_file(xlsx_file_path, xlsx_sheet_name, xlsx_column_name)
print(xlsx_selected_column)

csv_file_path = 'test.csv'
csv_column_name = 'Name'
csv_selected_column = read_csv_file(csv_file_path, csv_column_name)
print(csv_selected_column)

result_file_path = 'result.txt'
compare_columns(xlsx_selected_column, csv_selected_column, result_file_path)

其中，test.xlsx和test.csv是用于测试的.xlsx和.csv文件。在测试时，可以自行修改文件路径、sheet名字、列名等参数。最终结果会保存至指定的TXT文件中。

阅读全文

向AI提问

相关推荐

前端JS处理Excel数据：xlsx.core.min.js文件解析

iOS平台下.xlsx文件解析技术指南

jxls-2.2.7版本支持.xlsx文件解析的Java库

python自动办公 一键抓出PPT中的所有文字

python制作爬虫并将抓取结果保存到excel中

Python爬虫：解析百度文库TXT，获取文档内容

Python3实现阿里V任务数据爬取与处理教程

企业级应用案例分析：金蝶EAS DEP脚本实战指南

【cantest数据驱动测试进阶】：从基础到进阶的实践技巧

SUN2000逆变器MODBUS监控与日志分析：确保系统稳定运行的秘诀

【昆仑通态Modbus RTU诊断工具】：快速提升故障检测与分析能力

python期末大作业爬虫

利用网络爬虫技术抓取龙港房地产网站前5页的楼房信息，抓取出页面中的部分数据，包括详细地址、详情链接、房型、户型、面积、出售价格、登记时间，并以Excel表格的形式存放到本地。

iOS平台使用ZXlsxParser框架解析.xlsx文件教程

Python脚本：批量修改Excel指定单元格内容

uniapp实战商城类app和小程序源码​​​​​​.rar

PHP进阶系列之Swoole入门精讲（课程视频）

matlab齿轮-轴-轴承系统含间隙非线性动力学 基于matlab的齿轮-轴-轴承系统的含间隙非线性动力学模型，根据牛顿第二定律，建立齿轮系统啮合的非线性动力学方程，同时也主要应用修正Capone模

2024年移动应用隐私安全观测报告.pdf

基于Springboot框架的电影评论网站系统设计与实现（Java项目编程实战+完整源码+毕设文档+sql文件+学习练手好项目）.zip

大家在看

AvalonEdit文本器+NRefactory代码提示+Roslyn动态编译

js 在线编辑office source 浏览器在线打开office

毕设项目：STM32直流电机控制系统.zip

podingsystem.zip_通讯编程_C/C++_

rcs code_RCS_雷达截面积_matlab画rcs曲线_雷达_源码

最新推荐

C#程序提示“正由另一进程使用，因此该进程无法访问该文件”的解决办法

Linux下xlsx文件转txt文件.docx

基于Python的一个自动录入表格的小程序

使用 Python 合并多个格式一致的 Excel 文件(推荐)

python基础教程：Python 中pandas.read_excel详细介绍

虚拟串口软件：实现IP信号到虚拟串口的转换

【Python进阶篇】：掌握这些高级特性，让你的编程能力飞跃提升

后端调用ragflow api

IE6下实现PNG图片背景透明的技术解决方案

【欧姆龙触摸屏故障诊断全攻略】

python自动办公一键抓出PPT中的所有文字

uniapp实战商城类app和小程序源码.rar

matlab齿轮-轴-轴承系统含间隙非线性动力学基于matlab的齿轮-轴-轴承系统的含间隙非线性动力学模型，根据牛顿第二定律，建立齿轮系统啮合的非线性动力学方程，同时也主要应用修正Capone模