import os import PyPDF2 # PDF文件所在目录 pdf_folder = 'C:\Desktop\papers' # TXT文件所在目录 txt_folder = 'C:\Desktop\papers' # 遍历PDF文件夹中的所有PDF文件 for filename in os.listdir(pdf_papers): if filename.endswith('.pdf'): # 读取PDF文件 pdf_path = os.path.join(pdf_papers, filename) with open(pdf_path, 'rb') as f: pdf_reader = PyPDF2.PdfFileReader(f) # 遍历PDF文件中的所有页面 for page_num in range(pdf_reader.getNumPages()): # 将页面中的文本提取出来并写入TXT文件 page = pdf_reader.getPage(page_num) text = page.extractText() txt_filename = os.path.splitext(filename)[0] + '-page{}.txt'.format(page_num+1) txt_path = os.path.join(txt_folder, txt_filename) with open(txt_path, 'w', encoding='utf-8') as txt_file: txt_file.write(text)
时间: 2023-06-17 12:04:55 浏览: 128
New folder (2).rar_New Folder 2_csv_it_new floder 2_pdf
这是一个Python脚本,用于将一个目录中的所有PDF文件中的文本提取出来,并将其写入到同目录下的TXT文件中。具体实现步骤如下:
1. 导入必要的模块:os模块和PyPDF2模块。
2. 定义PDF文件所在目录和TXT文件所在目录。
3. 遍历PDF文件夹中的所有PDF文件。
4. 对于每一个PDF文件,使用PyPDF2模块读取其内容。
5. 遍历PDF文件中的所有页面,将每一页中的文本提取出来。
6. 将提取出来的文本写入到同目录下的TXT文件中,文件名为原PDF文件名加上页码。
阅读全文