怎么使用python读取word和PDF文件
时间: 2023-10-09 09:07:09 浏览: 122
python作excel、word、pdf
要使用Python读取Word和PDF文件,可以使用以下两个库:
1. python-docx库:可以读取和修改Word文档。
2. PyPDF2库:可以读取和修改PDF文档。
以下是使用这两个库的示例代码:
读取Word文档:
```python
import docx
# 打开Word文档
doc = docx.Document('example.docx')
# 遍历文档中的段落
for para in doc.paragraphs:
print(para.text)
# 遍历文档中的表格
for table in doc.tables:
for row in table.rows:
for cell in row.cells:
print(cell.text)
```
读取PDF文档:
```python
import PyPDF2
# 打开PDF文档
pdf_file = open('example.pdf', 'rb')
pdf_reader = PyPDF2.PdfFileReader(pdf_file)
# 遍历文档中的页面
for page_num in range(pdf_reader.numPages):
page = pdf_reader.getPage(page_num)
# 读取页面的文本内容
text = page.extractText()
print(text)
pdf_file.close()
```
需要注意的是,这些库需要通过pip安装才能使用。可以使用以下命令安装:
```bash
pip install python-docx PyPDF2
```
阅读全文