想打印出"D:\点宽学院"这个文件夹下所有pdf文件内容中的中文名词,请问python如何实现
时间: 2024-05-07 13:19:36 浏览: 78
python 字典的打印实现
5星 · 资源好评率100%
你可以使用Python中的os和PyPDF2模块来实现该功能。
首先,你需要安装PyPDF2模块。你可以使用以下命令来安装:
```
pip install PyPDF2
```
然后,你可以使用以下代码来遍历文件夹并读取所有PDF文件中的中文名词:
```python
import os
import PyPDF2
import re
# 定义一个正则表达式,匹配中文
chinese_pattern = re.compile(u'[\u4e00-\u9fa5]+')
# 文件夹路径
folder_path = r'D:\点宽学院'
# 遍历文件夹中的所有PDF文件
for file_name in os.listdir(folder_path):
if file_name.endswith('.pdf'):
file_path = os.path.join(folder_path, file_name)
with open(file_path, 'rb') as pdf_file:
# 读取PDF文件内容
pdf_reader = PyPDF2.PdfFileReader(pdf_file)
for page_num in range(pdf_reader.getNumPages()):
page = pdf_reader.getPage(page_num)
text = page.extractText()
# 在每一页中查找中文名词
chinese_words = chinese_pattern.findall(text)
# 输出中文名词
for chinese_word in chinese_words:
print(chinese_word)
```
该代码将遍历文件夹中的所有PDF文件,并读取其中的每一页。然后,使用正则表达式来匹配中文,并输出中文名词。
阅读全文