首页how to extract the words from a pdf paper in python programming

how to extract the words from a pdf paper in python programming

时间: 2023-02-09 16:15:44 浏览: 144

可以使用 Python 的 PyPDF2 库来提取 PDF 文件中的文本。首先需要安装 PyPDF2，可以使用 "pip install pypdf2" 命令进行安装。然后可以使用 PyPDF2 库中的 PdfFileReader 类来读取 PDF 文件，并使用 PdfFileReader 对象的 extractText() 方法来提取文本。 ```python import PyPDF2 # Open the pdf file with open('example.pdf', 'rb') as file: # Create pdf reader object pdf_reader = PyPDF2.PdfFileReader(file) # Get number of pages num_pages = pdf_reader.numPages # Extract text from each page for i in range(num_pages): page = pdf_reader.getPage(i) print(page.extractText()) ``` 如果你想提取每个单词，可以将每页提取出来的文本使用split()转为list,这样就可以获得文章里的单词了。 ```python import PyPDF2 # Open the pdf file with open('example.pdf', 'rb') as file: # Create pdf reader object pdf_reader = PyPDF2.PdfFileReader(file) # Get number of pages num_pages = pdf_reader.numPages # Extract text from each page for i in range(num_pages): page = pdf_reader.getPage(i) words = page.extractText().split(" ") print(words) ```

阅读全文