首页python读取一页PDF页面中，有两列目录，按页码顺序输出为TXT文件

python读取一页PDF页面中，有两列目录，按页码顺序输出为TXT文件

时间: 2024-02-09 13:13:07 浏览: 286

可以使用Python的PyPDF2库来读取PDF文件，使用re库来匹配目录中的页码和内容，最后将结果输出到TXT文件中。以下是实现的代码： ```python import PyPDF2 import re # 打开PDF文件 pdf_file = open('example.pdf', 'rb') # 创建PDF读取器对象 pdf_reader = PyPDF2.PdfFileReader(pdf_file) # 获取PDF文件总页数 num_pages = pdf_reader.getNumPages() # 创建TXT文件 txt_file = open('output.txt', 'w') # 遍历每一页 for i in range(num_pages): # 获取当前页 page = pdf_reader.getPage(i) # 将页内容转换为纯文本 text = page.extractText() # 匹配目录中的页码和内容 matches = re.findall(r'(\d+)\s+(.*)', text) # 将匹配结果输出到TXT文件中 for match in matches: txt_file.write(match[0] + '\t' + match[1] + '\n') # 关闭文件 pdf_file.close() txt_file.close() ``` 其中，`example.pdf`为PDF文件路径，`output.txt`为输出的TXT文件路径。在匹配目录时，使用正则表达式`r'(\d+)\s+(.*)'`，其中`(\d+)`表示匹配页码，`\s+`表示匹配多个空格，`(.*)`表示匹配目录内容。输出时，使用`\t`分隔页码和内容，使用`\n`换行。

阅读全文