用python写一个批量提取PDF文档信息并保存为TXT格式的文件的窗口程序
时间: 2023-09-13 19:03:05 浏览: 15
好的,我可以给你提供一个Python窗口程序,用于批量提取PDF文档中的信息并保存为TXT格式的文件。这个程序使用了PyQt5库来创建GUI窗口,并使用了PyPDF2库来读取PDF文件的内容。
代码如下:
```python
import sys
import os
import PyPDF2
from PyQt5.QtWidgets import QApplication, QWidget, QLabel, QPushButton, QFileDialog, QTextEdit, QGridLayout
class PdfToTxt(QWidget):
def __init__(self):
super().__init__()
self.title = 'PDF批量转TXT'
self.left = 50
self.top = 50
self.width = 500
self.height = 400
self.initUI()
def initUI(self):
self.setWindowTitle(self.title)
self.setGeometry(self.left, self.top, self.width, self.height)
self.input_label = QLabel('选择要转换的PDF文件夹:', self)
self.input_label.move(20, 20)
self.input_text = QTextEdit(self)
self.input_text.setReadOnly(True)
self.input_text.setGeometry(20, 50, 200, 30)
self.input_btn = QPushButton('选择文件夹', self)
self.input_btn.setGeometry(230, 50, 80, 30)
self.input_btn.clicked.connect(self.select_folder)
self.output_label = QLabel('选择保存TXT文件夹:', self)
self.output_label.move(20, 100)
self.output_text = QTextEdit(self)
self.output_text.setReadOnly(True)
self.output_text.setGeometry(20, 130, 200, 30)
self.output_btn = QPushButton('选择文件夹', self)
self.output_btn.setGeometry(230, 130, 80, 30)
self.output_btn.clicked.connect(self.select_folder)
self.run_btn = QPushButton('开始转换', self)
self.run_btn.setGeometry(20, 200, 100, 30)
self.run_btn.clicked.connect(self.convert)
self.result_label = QLabel('', self)
self.result_label.setGeometry(20, 240, 300, 30)
self.grid = QGridLayout()
self.setLayout(self.grid)
self.show()
def select_folder(self):
folder = str(QFileDialog.getExistingDirectory(self, "选择文件夹"))
sender = self.sender()
if sender == self.input_btn:
self.input_text.setText(folder)
elif sender == self.output_btn:
self.output_text.setText(folder)
def convert(self):
input_folder = self.input_text.toPlainText()
output_folder = self.output_text.toPlainText()
if not os.path.exists(input_folder):
self.result_label.setText('PDF文件夹不存在!')
return
if not os.path.exists(output_folder):
os.makedirs(output_folder)
for file_name in os.listdir(input_folder):
if file_name.endswith('.pdf'):
input_file = os.path.join(input_folder, file_name)
output_file = os.path.join(output_folder, os.path.splitext(file_name)[0] + '.txt')
try:
with open(output_file, 'w') as f:
pdf_file = open(input_file, 'rb')
pdf_reader = PyPDF2.PdfFileReader(pdf_file)
num_pages = pdf_reader.getNumPages()
for i in range(num_pages):
page_obj = pdf_reader.getPage(i)
f.write(page_obj.extractText())
pdf_file.close()
self.result_label.setText(f'{file_name} 转换成功!')
except:
self.result_label.setText(f'{file_name} 转换失败!')
if __name__ == '__main__':
app = QApplication(sys.argv)
ex = PdfToTxt()
sys.exit(app.exec_())
```
这个程序的界面比较简单,有两个文本框和两个按钮。第一个文本框用于选择要转换的PDF文件夹,第二个文本框用于选择要保存TXT文件的文件夹。两个按钮分别对应选择文件夹的操作。还有一个“开始转换”按钮,用于开始转换PDF文件。
当用户点击“开始转换”按钮时,程序会遍历PDF文件夹中的所有PDF文件,并将它们转换为TXT文件保存到指定的TXT文件夹中。每个TXT文件的文件名与对应的PDF文件名相同,只是扩展名不同。
程序还会在界面上显示转换结果,如果某个PDF文件转换成功,会显示“文件名 转换成功!”;如果转换失败,会显示“文件名 转换失败!”。
相关推荐

















