我想读取"我想读取“D:\点宽学院\在线绿色互动如何影响共享型绿色消费行为_——自然联结性的调节作用_王建明.pdf”这个PDF的内容，把读取的内容合并成一个字符串，然后用中文或英文句号进行分割，把分割的结果打印出来，用python，不用pypdf2库

好的，你可以使用Python中的PyMuPDF库来实现这个功能。以下是代码： ```python import fitz # 读取PDF文件 doc = fitz.open(r"D:\点宽学院\在线绿色互动如何影响共享型绿色消费行为_——自然联结性的调节作用_王建明.pdf") # 定义一个空字符串来存储读取的内容 text = "" # 读取每一页的内容并添加到字符串中 for page in doc: text += page.getText() # 用中文或英文句号进行分割 text = text.replace('\n', '') # 去掉换行符 text = text.replace('\r', '') # 去掉回车符 text = text.replace(' ', '') # 去掉空格 text = text.replace('。', '。\n') # 中文句号 text = text.replace('. ', '.\n') # 英文句号 # 打印分割结果 print(text) ``` 这个程序会读取指定路径下的PDF文件，并把每一页的内容合并成一个字符串。然后，它会用中文或英文句号进行分割，并把分割的结果打印出来。

我想读取"我想读取“D:\点宽学院\在线绿色互动如何影响共享型绿色消费行为_——自然联结性的调节作用_王建明.pdf”这个PDF的内容，把读取的内容合并成一个字符串，然后用中文或英文句号进行分割，把分割的结果打印出来

好的，为了读取PDF文件，我们需要使用Python的第三方库PyPDF2。请先在命令行或终端中安装它，命令如下： ``` pip install PyPDF2 ``` 安装好后，以下是代码实现： ```python import PyPDF2 # 打开pdf文件 pdf_file = open('D:\点宽学院\在线绿色互动如何影响共享型绿色消费行为_——自然联结性的调节作用_王建明.pdf', 'rb') # 读取pdf内容 pdf_reader = PyPDF2.PdfFileReader(pdf_file) content = "" for page in range(pdf_reader.numPages): content += pdf_reader.getPage(page).extractText() # 分割内容并打印 split_content = content.split("。") for s in split_content: print(s.strip() + "。") # 关闭pdf文件 pdf_file.close() ``` 这段代码会读取指定路径下的PDF文件，把内容合并成一个字符串，并用句号进行分割，最后打印出来。你可以把代码中的文件路径改为你想要读取的PDF文件的路径。

import fitz # 读取PDF文件 doc = fitz.open(r"D:\点宽学院\在线绿色互动如何影响共享型绿色消费行为_——自然联结性的调节作用_王建明.pdf") # 定义一个空字符串来存储读取的内容 text = "" # 读取每一页的内容并添加到字符串中 for page in doc: text += page.getText() # 用中文或英文句号进行分割 text = text.replace('\n', '') # 去掉换行符 text = text.replace('\r', '') # 去掉回车符 text = text.replace(' ', '') # 去掉空格 text = text.replace('。', '。\n') # 中文句号 text = text.replace('. ', '.\n') # 英文句号 # 打印分割结果 print(text) 这个代码跑不了，说AttributeError: 'Page' object has no attribute 'getText'，我应该如何修改

这个错误是因为fitz库的版本更新导致的。可以使用以下代码来代替`page.getText()`： ``` text += page.get_text("text") ``` 修改后的完整代码如下： ``` import fitz # 读取PDF文件 doc = fitz.open(r"D:\点宽学院\在线绿色互动如何影响共享型绿色消费行为_——自然联结性的调节作用_王建明.pdf") # 定义一个空字符串来存储读取的内容 text = "" # 读取每一页的内容并添加到字符串中 for page in doc: text += page.get_text("text") # 用中文或英文句号进行分割 text = text.replace('\n', '') # 去掉换行符 text = text.replace('\r', '') # 去掉回车符 text = text.replace(' ', '') # 去掉空格 text = text.replace('。', '。\n') # 中文句号 text = text.replace('. ', '.\n') # 英文句号 # 打印分割结果 print(text) ```

阅读全文

我想读取"我想读取“D:\点宽学院\在线绿色互动如何影响共享型绿色消费行为_——自然联结性的调节作用_王建明.pdf”这个PDF的内容，把读取的内容合并成一个字符串，然后用中文或英文句号进行分割，把分割的结果打印出来

相关推荐

Python-PyPDF2一个可以分割合并和转换PDF文件的Python库

读取pdf 文件(绿色版)

由qpdf提供支持的用于读取和写入PDF的Python库-Python开发

绿色免费人力资源管理软件┊人事、考勤、工资、考核、OA

超级有影响力霸气的Java面试题大全文档

全国行政区划代码数据库：详细区县级代码表

【MySQL数据校验与维护】：确保数据完整性的技术要点

【数据库事务与并发控制】：保障数据一致性的专业策略

数据保护与访问控制：HDFS列式存储安全性深度剖析

【Hibernate动态查询解决之道】：提升数据检索的敏捷性

【缓存一致性问题深度剖析】：Memcache与Python协同工作的挑战与对策

【Django字段关系管理优化策略】：减少数据库查询，提升代码复用性

数据库系统原理实验：带你从理论走向实践的10个必学关键点

数据完整性提升指南

【MySQL数据库设计：从理论到实践】：理论与案例的深度结合

地形测绘案例深度剖析：如何高效应用TerraSolid？

Django项目效率秘诀：管理命令的最佳实践案例分析

Python-pikepdf用于读写PDF的Python库由qpdf提供支持

大家在看

一种基于SLA的业务管理模型

蓝矩智慧校友管理系统

ThinkPadT61升级BIOS2.29程序，升级后可支持8GB内存，SATAIII固态盘，支持T9300CPU

saml-idp.zip

思科无线接入点无法连接到无线 LAN 控制器

最新推荐

python读取图片的几种方式及图像宽和高的存储顺序

详解Tensorflow数据读取有三种方式（next_batch）

完美解决mysql in条件语句只读取一条信息问题的2种方案

java利用SMB读取远程文件的方法

scala 读取txt文件的方法示例

易语言例程：用易核心支持库打造功能丰富的IE浏览框

管理建模和仿真的文件

STM32F407ZG引脚功能深度剖析：掌握引脚分布与配置的秘密（全面解读）

给出文档中问题的答案代码

Docker构建与运行Next.js应用的指南