我想读取"我想读取“D:\点宽学院\在线绿色互动如何影响共享型绿色消费行为_——自然联结性的调节作用_王建明.pdf”这个PDF的内容，把读取的内容合并成一个字符串，然后用中文或英文句号进行分割，把分割的结果打印出来

好的，为了读取PDF文件，我们需要使用Python的第三方库PyPDF2。请先在命令行或终端中安装它，命令如下： ``` pip install PyPDF2 ``` 安装好后，以下是代码实现： ```python import PyPDF2 # 打开pdf文件 pdf_file = open('D:\点宽学院\在线绿色互动如何影响共享型绿色消费行为_——自然联结性的调节作用_王建明.pdf', 'rb') # 读取pdf内容 pdf_reader = PyPDF2.PdfFileReader(pdf_file) content = "" for page in range(pdf_reader.numPages): content += pdf_reader.getPage(page).extractText() # 分割内容并打印 split_content = content.split("。") for s in split_content: print(s.strip() + "。") # 关闭pdf文件 pdf_file.close() ``` 这段代码会读取指定路径下的PDF文件，把内容合并成一个字符串，并用句号进行分割，最后打印出来。你可以把代码中的文件路径改为你想要读取的PDF文件的路径。

import fitz # 读取PDF文件 doc = fitz.open(r"D:\点宽学院\在线绿色互动如何影响共享型绿色消费行为_——自然联结性的调节作用_王建明.pdf") # 定义一个空字符串来存储读取的内容 text = "" # 读取每一页的内容并添加到字符串中 for page in doc: text += page.getText() # 用中文或英文句号进行分割 text = text.replace('\n', '') # 去掉换行符 text = text.replace('\r', '') # 去掉回车符 text = text.replace(' ', '') # 去掉空格 text = text.replace('。', '。\n') # 中文句号 text = text.replace('. ', '.\n') # 英文句号 # 打印分割结果 print(text) 这个代码跑不了，说AttributeError: 'Page' object has no attribute 'getText'，我应该如何修改

这个错误是因为fitz库的版本更新导致的。可以使用以下代码来代替`page.getText()`： ``` text += page.get_text("text") ``` 修改后的完整代码如下： ``` import fitz # 读取PDF文件 doc = fitz.open(r"D:\点宽学院\在线绿色互动如何影响共享型绿色消费行为_——自然联结性的调节作用_王建明.pdf") # 定义一个空字符串来存储读取的内容 text = "" # 读取每一页的内容并添加到字符串中 for page in doc: text += page.get_text("text") # 用中文或英文句号进行分割 text = text.replace('\n', '') # 去掉换行符 text = text.replace('\r', '') # 去掉回车符 text = text.replace(' ', '') # 去掉空格 text = text.replace('。', '。\n') # 中文句号 text = text.replace('. ', '.\n') # 英文句号 # 打印分割结果 print(text) ```

阅读全文

我想读取"我想读取“D:\点宽学院\在线绿色互动如何影响共享型绿色消费行为_——自然联结性的调节作用_王建明.pdf”这个PDF的内容，把读取的内容合并成一个字符串，然后用中文或英文句号进行分割，把分割的结果打印出来

相关推荐

读取PDF内容

读取pdf 文件(绿色版)

MgosoftPDFSplitMerge(pdf分割合并工具)v9.2.0中文绿色版

绿色免费人力资源管理软件┊人事、考勤、工资、考核、OA

【网络密度与联结强度分析】：掌握UCINET 6的网络分析策略

【MySQL数据校验与维护】：确保数据完整性的技术要点

【数据库事务与并发控制】：保障数据一致性的专业策略

数据库反范式化策略：专家平衡性能与复杂性的秘诀

数据保护与访问控制：HDFS列式存储安全性深度剖析

【企业级数据库优化手册】：性能与数据完整性轻松掌控

【Hibernate动态查询解决之道】：提升数据检索的敏捷性

【缓存一致性问题深度剖析】：Memcache与Python协同工作的挑战与对策

【Django字段关系管理优化策略】：减少数据库查询，提升代码复用性

【用友系统gl_accvouch表与模块关联分析】：优化表间关系

【数据库期末复习题库】：2021年核心概念与知识点的复习秘法

【数据库设计优化】：提升学生成绩管理系统性能的6个关键点

数据库系统原理实验：带你从理论走向实践的10个必学关键点

java计算器源码.zip

FRP Manager-V1.19.2

大家在看

APBS 各版本安装包（linux windows）1.4.2-3.4.0

ccs中文教程

glvis:使用PyQt5进行OpenGL编程

计算机领域EI和SCI收录期刊、影响因子及国际会议

Petalinux_config配置信息大全（非常重要）.docx

最新推荐

python读取图片的几种方式及图像宽和高的存储顺序

详解Tensorflow数据读取有三种方式（next_batch）

完美解决mysql in条件语句只读取一条信息问题的2种方案

java利用SMB读取远程文件的方法

pandas分批读取大数据集教程

PHP集成Autoprefixer让CSS自动添加供应商前缀

揭秘数字音频编码的奥秘：非均匀量化A律13折线的全面解析

arduino PAJ7620U2

网站啄木鸟：深入分析SQL注入工具的效率与限制

【GPStoolbox使用技巧大全】：20个实用技巧助你精通GPS数据处理