import os import PyPDF2 # PDF文件所在目录 pdf_folder = 'C:\Desktop\papers' # TXT文件所在目录 txt_folder = 'C:\Desktop\papers' # 遍历PDF文件夹中的所有PDF文件 for filename in os.listdir(pdf_papers): if filename.endswith('.pdf'): # 读取PDF文件 pdf_path = os.path.join(pdf_papers, filename) with open(pdf_path, 'rb') as f: pdf_reader = PyPDF2.PdfFileReader(f) # 遍历PDF文件中的所有页面 for page_num in range(pdf_reader.getNumPages()): # 将页面中的文本提取出来并写入TXT文件 page = pdf_reader.getPage(page_num) text = page.extractText() txt_filename = os.path.splitext(filename)[0] + '-page{}.txt'.format(page_num+1) txt_path = os.path.join(txt_folder, txt_filename) with open(txt_path, 'w', encoding='utf-8') as txt_file: txt_file.write(text)
时间: 2023-06-17 15:04:52 浏览: 184
New folder (2).rar_New Folder 2_csv_it_new floder 2_pdf
这段代码是一个将PDF文件转化为TXT文件的Python脚本,它使用了PyPDF2库来读取PDF文件,遍历PDF文件中的所有页面,并将页面中的文本提取出来写入TXT文件。下面是代码的具体解释:
1. 首先导入了os和PyPDF2两个库。
2. 定义了两个变量pdf_folder和txt_folder,分别表示PDF文件和TXT文件所在的目录。
3. 使用os库的listdir函数遍历PDF文件夹中的所有PDF文件,如果文件名以'.pdf'结尾,则读取该PDF文件。
4. 使用PyPDF2库的PdfFileReader函数读取PDF文件,并遍历PDF文件中的所有页面。
5. 使用getPage函数获取页面对象,再使用extractText函数提取出页面中的文本。
6. 构建TXT文件名,将PDF文件名去掉扩展名后加上'-page'和页面编号,再加上'.txt'扩展名。
7. 使用open函数打开TXT文件,并将文本写入文件中。
8. 重复步骤4到7,直到遍历完PDF文件中的所有页面。
总的来说,这段代码是一个简单的PDF转TXT脚本,可以方便地将PDF文件中的文本提取出来。
阅读全文