how to extract the words from a pdf paper in python programming
时间: 2023-02-09 07:15:44 浏览: 140
可以使用 Python 的 PyPDF2 库来提取 PDF 文件中的文本。首先需要安装 PyPDF2,可以使用 "pip install pypdf2" 命令进行安装。然后可以使用 PyPDF2 库中的 PdfFileReader 类来读取 PDF 文件,并使用 PdfFileReader 对象的 extractText() 方法来提取文本。
```python
import PyPDF2
# Open the pdf file
with open('example.pdf', 'rb') as file:
# Create pdf reader object
pdf_reader = PyPDF2.PdfFileReader(file)
# Get number of pages
num_pages = pdf_reader.numPages
# Extract text from each page
for i in range(num_pages):
page = pdf_reader.getPage(i)
print(page.extractText())
```
如果你想提取每个单词,可以将每页提取出来的文本使用split()转为list,这样就可以获得文章里的单词了。
```python
import PyPDF2
# Open the pdf file
with open('example.pdf', 'rb') as file:
# Create pdf reader object
pdf_reader = PyPDF2.PdfFileReader(file)
# Get number of pages
num_pages = pdf_reader.numPages
# Extract text from each page
for i in range(num_pages):
page = pdf_reader.getPage(i)
words = page.extractText().split(" ")
print(words)
```
阅读全文