用python写一个批量转换PDF文档为TXT格式的窗口程序，TXT文件有文本内容，图片自动过滤

好的，以下是一个简单的 Python 程序，可以实现批量将 PDF 文档转换为 TXT 格式，并自动过滤图片： ```python import os import PyPDF2 import tkinter as tk from tkinter import filedialog def choose_folder(): folder_path = filedialog.askdirectory() return folder_path def pdf_to_txt(folder_path): for filename in os.listdir(folder_path): if filename.endswith('.pdf'): input_path = os.path.join(folder_path, filename) output_path = os.path.join(folder_path, os.path.splitext(filename)[0]+'.txt') with open(output_path, 'w', encoding='utf-8') as f: pdf_file = open(input_path, 'rb') pdf_reader = PyPDF2.PdfFileReader(pdf_file) for page in range(pdf_reader.numPages): page_obj = pdf_reader.getPage(page) text = page_obj.extractText() f.write(text) pdf_file.close() # Remove images from txt file with open(output_path, 'r', encoding='utf-8') as f: txt = f.read() filtered_txt = ''.join([i for i in txt if not i.isdigit() and not i.isalpha()]) with open(output_path, 'w', encoding='utf-8') as f: f.write(filtered_txt) print('Conversion completed!') def main(): root = tk.Tk() root.withdraw() folder_path = choose_folder() pdf_to_txt(folder_path) if __name__ == '__main__': main() ``` 这个程序使用了 PyPDF2 库来读取 PDF 文件，并将每一页的文本内容写入 TXT 文件。然后，程序会打开 TXT 文件并过滤掉所有的图片，只保留文本内容。最后，程序会将过滤后的文本内容写入同名的 TXT 文件中。要运行此程序，请先安装 PyPDF2 库。可以使用以下命令来安装： ``` pip install PyPDF2 ``` 然后，将上述代码保存为 `pdf_to_txt.py` 文件，并在命令行中执行以下命令： ``` python pdf_to_txt.py ``` 程序将会弹出一个文件夹选择窗口，让您选择要转换的 PDF 文件所在的文件夹。然后，程序会将所有的 PDF 文件自动转换为 TXT 格式，并过滤图片。转换后的 TXT 文件将保存在同一个文件夹中。

阅读全文

用python写一个批量转换PDF文档为TXT格式的窗口程序，TXT文件有文本内容，图片自动过滤

相关推荐

基于Python实现TXT文件转换WORD、PDF、图片【400010002】

python实现pdf批量转换为图片

PDFLayoutTextStripper将PDF格式的文档转换成为TXT的纯文本文件

python批量实现Word文件转换为PDF文件

python批量重命名Word文档并转换为PDF

Python批量操作pdf、给单个PDF文件添加水印的方法、批量合并PDF文档、将PDF文件转存为图片、拆分(提取)某几页pdf

Office办公自动化-如何把Word文档批量转换为PDF文档-Python实例源码.zip

python实现pdf转换成word/txt纯文本文件

python图片格式批量转换

python实现word 2007文档转换为pdf文件

基于python实现word文档文本读取与文档转换pdf源码

python pdf文件转文本txt文件代码

基于Python的批量重命名Word文档并转换为PDF.zip

python实现txt文件格式转换为arff格式

python爬取网页内容转换为PDF文件

Python批量提取PDF文件中文本的脚本

基于python实现批量重命名Word文档并转换为PDF附项目源码

基于Python实现TXT文件自适应转换图片【400010001】

文件格式转换。（用于将PDF转化为TXT的）超快的哟

python图片批量转PDF工具

最新推荐

python实现pdf转换成word/txt纯文本文件

python实现npy格式文件转换为txt文件操作

python如何将两个txt文件内容合并

Python批量提取PDF文件中文本的脚本

Python读写txt文本文件的操作方法全解析

探索数据转换实验平台在设备装置中的应用

管理建模和仿真的文件

ggflags包的国际化问题：多语言标签处理与显示的权威指南

如何使用MATLAB实现电力系统潮流计算中的节点导纳矩阵构建和阻抗矩阵转换，并解释这两种矩阵在潮流计算中的作用和差异？

使用git-log-to-tikz.py将Git日志转换为TIKZ图形