我想读取D盘所有的PDF的内容,先把所有的内容合并成1句句子,然后再把这句句子用中文逗号进行分割,把分割后的内容一一打印出来,请用python实现,但不能用pypdf2这个库
时间: 2024-05-08 21:22:07 浏览: 19
可以使用PyMuPDF库来读取PDF文件内容,然后将所有内容合并成一个字符串,最后使用中文逗号进行分割并打印出来。下面是示例代码:
```python
import fitz
# 读取D盘所有的PDF的内容
pdf_files = ['D:/file1.pdf', 'D:/file2.pdf', 'D:/file3.pdf']
text = ''
for file in pdf_files:
with fitz.open(file) as doc:
for page in doc:
text += page.getText()
# 将所有内容合并成1句句子
text = text.replace('\n', '').replace('\r', '').replace('\t', '').replace(' ', ' ')
sentences = text.split('.')
# 使用中文逗号进行分割并打印出来
for sentence in sentences:
print(sentence.strip() + ',')
```
相关推荐
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![7z](https://img-home.csdnimg.cn/images/20210720083312.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![7z](https://img-home.csdnimg.cn/images/20210720083312.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![7z](https://img-home.csdnimg.cn/images/20210720083312.png)