python 批量提取pdf年报指定部分内容（自定义开始和结尾），并保存到txt，用excel表自定义读取文件名称

您好，这个任务可以使用Python的pdfminer库来实现。下面是一个大致的思路： 1. 首先需要安装pdfminer库，可以使用pip命令进行安装： ``` pip install pdfminer ``` 2. 在Excel表格中，可以使用pandas库来读取文件名。具体操作可以参考下面的代码： ```python import pandas as pd # 读取Excel表格 df = pd.read_excel('file_names.xlsx') # 获取文件名列表 file_names = df['file_name'].tolist() ``` 3. 接下来可以编写读取PDF文件并提取指定部分内容的函数。比如，我们可以读取每一页PDF文件的文本内容，然后根据指定的开始和结尾字符串来提取指定的内容。具体操作可以参考下面的代码： ```python from pdfminer.high_level import extract_text def extract_content(file_path, start_str, end_str): # 读取PDF文件内容 text = extract_text(file_path) # 查找起始位置 start_idx = text.find(start_str) if start_idx == -1: return '' # 查找结束位置 end_idx = text.find(end_str, start_idx) if end_idx == -1: return '' # 提取内容 content = text[start_idx:end_idx + len(end_str)] return content ``` 4. 最后可以将提取到的内容保存到TXT文件中。具体操作可以参考下面的代码： ```python def save_to_txt(content, file_path): with open(file_path, 'w', encoding='utf-8') as f: f.write(content) # 示例用法 content = extract_content('example.pdf', '开始字符串', '结束字符串') save_to_txt(content, 'example.txt') ``` 综合以上步骤，可以编写一个完整的程序来批量提取PDF年报中指定部分内容，并保存到TXT文件中。下面是一个示例代码： ```python import os import pandas as pd from pdfminer.high_level import extract_text def extract_content(file_path, start_str, end_str): # 读取PDF文件内容 text = extract_text(file_path) # 查找起始位置 start_idx = text.find(start_str) if start_idx == -1: return '' # 查找结束位置 end_idx = text.find(end_str, start_idx) if end_idx == -1: return '' # 提取内容 content = text[start_idx:end_idx + len(end_str)] return content def save_to_txt(content, file_path): with open(file_path, 'w', encoding='utf-8') as f: f.write(content) # 读取Excel表格 df = pd.read_excel('file_names.xlsx') # 获取文件名列表 file_names = df['file_name'].tolist() # 提取指定部分内容并保存到TXT文件中 for file_name in file_names: # 构造PDF文件路径 file_path = os.path.join('pdf_files', file_name) # 提取内容 content = extract_content(file_path, '开始字符串', '结束字符串') # 构造TXT文件路径 txt_file_name = file_name.replace('.pdf', '.txt') txt_file_path = os.path.join('txt_files', txt_file_name) # 保存到TXT文件中 save_to_txt(content, txt_file_path) ``` 需要注意的是，以上代码中的“开始字符串”和“结束字符串”需要根据具体情况进行替换。同时，也需要将Excel表格中的“file_name”列改为实际的文件名列。

python 批量提取pdf年报指定部分内容（自定义开始和结尾），并保存到txt，用excel表自定义读取文件名称

相关推荐

python批量提取PDF中的表格到Excel文档

Python实现提取XML内容并保存到Excel中的方法

python批量读取txt文件（读取指定行内容/统计关键词数量/读取指定关键词之间的内容/创建空白txt/统计行数和字符串数量）

用python 读取txt文件，提取关键词并保存到excel

用python 读取txt文件,提取关键词并保存到excel

用python写一个批量提取PDF文档信息并保存为TXT格式的文件的窗口程序并显示内容文本框

使用python批量提取excel表格内文件的父文件夹名称，并保存

python从txt文件读取指定内容并保存为txt文件

python怎么读取txt文件内容然后保存到excel-Python实现读取txt文件并转换为excel的方法示例...

python读取txt 并提取表中关键字所在行保存为excel

python读取文件内容保存到excel表中

python批量读取txt文件内部数据并导出到excel

python批量读取文件里里的excel并打印每个excel文件的名称和行数

用python pandas读取excel文件并把指定内容写入生成的txt文件时,txt文件有空行怎么消除

python 批量提取excel部分内容 写入新表

python循环提取excel某列的数据并保存到txt文件中的代码

Python筛选Excel文件中的内容并保存到txt文件

python实现不指定文件名读取excel文件并指定多列数据进行自定义计算公式

使用Python提取HTML文件的文本内容并保存到相对目录的TXT文件中

最新推荐

使用python批量读取word文档并整理关键信息到excel表格的实例

python批量读取文件名并写入txt文件中

Python批量提取PDF文件中文本的脚本

Python实现读取json文件到excel表

python3读取excel文件只提取某些行某些列的值方法

zigbee-cluster-library-specification

管理建模和仿真的文件

MATLAB柱状图在信号处理中的应用：可视化信号特征和频谱分析

用Spring boot和vue写一个登录注册界面

JSBSim Reference Manual

python 批量提取excel部分内容写入新表