python提取多页pdf中的所以单词,并将单词写入txt文件
时间: 2024-03-01 11:54:35 浏览: 60
使用python提取pdf中的文字
5星 · 资源好评率100%
你可以使用Python中的`PyMuPDF`库来提取PDF中的文本,然后使用正则表达式或其他文本处理技术来提取所有单词。然后,你可以将提取的单词写入一个文本文件中。以下是一个简单的例子,演示如何使用`PyMuPDF`和正则表达式提取PDF中的所有单词,并将单词写入一个文本文件中:
```python
import fitz
import re
# 打开PDF文件
pdf_file = fitz.open('example.pdf')
# 创建一个空字符串,用于存储所有文本
all_text = ''
# 遍历所有页
for page_num in range(pdf_file.page_count):
# 获取当前页文本
page = pdf_file.load_page(page_num)
page_text = page.get_text()
# 将当前页文本添加到总文本中
all_text += page_text
# 使用正则表达式提取所有单词
words = re.findall(r'\b\w+\b', all_text)
# 将单词写入文本文件
with open('words.txt', 'w') as file:
for word in words:
file.write(word + '\n')
# 关闭文件
pdf_file.close()
```
这个例子使用`fitz`模块打开PDF文件,遍历所有页,将每页的文本添加到一个总文本字符串中,然后使用正则表达式提取所有单词。接下来,我们使用`with open`语句打开一个文本文件,并将每个单词写入文件中。最后,我们关闭文件并关闭PDF文件。
你可以根据需要修改代码来适应不同的情况。
阅读全文