python提取多页pdf中的所以单词
时间: 2023-09-25 16:13:06 浏览: 94
Python加载pdf文件提取文件中所有图片
你可以使用Python中的PyPDF2库来提取PDF中的文本,然后使用正则表达式或其他文本处理技术来提取所有单词。下面是一个简单的例子,演示如何使用PyPDF2和正则表达式提取PDF中的所有单词:
```python
import PyPDF2
import re
# 打开PDF文件
pdf_file = open('example.pdf', 'rb')
# 创建PDF阅读器对象
pdf_reader = PyPDF2.PdfFileReader(pdf_file)
# 创建一个空字符串,用于存储所有文本
all_text = ''
# 遍历所有页
for page_num in range(pdf_reader.numPages):
# 获取当前页文本
page_text = pdf_reader.getPage(page_num).extractText()
# 将当前页文本添加到总文本中
all_text += page_text
# 使用正则表达式提取所有单词
words = re.findall(r'\b\w+\b', all_text)
# 打印提取的单词
print(words)
# 关闭文件
pdf_file.close()
```
这个例子遍历了PDF文件中的所有页,将每页的文本添加到一个总文本字符串中,然后使用正则表达式提取所有单词,并打印它们。你可以根据需要修改代码来适应不同的情况。
阅读全文