我想读取"我想读取“D:\点宽学院\在线绿色互动如何影响共享型绿色消费行为_——自然联结性的调节作用_王建明.pdf”这个PDF的内容，把读取的内容合并成一个字符串，然后用中文句号进行分割，一个句号视为一句，把分割的每句话都一一打印出来，请问用python如何实现，请给我2个不同的实现方法，不要用pypdf2和pdfminer库

时间: 2023-06-17 14:05:43 浏览: 141

mysql大纲资料.txt

MySQL简介： MySQL是一个广泛使用的开源关系型数据库管理系统（RDBMS），由瑞典MySQL AB公司开发，后来被Sun Microsystems收购，Sun Microsystems后又被甲骨文公司（Oracle）收购。MySQL的名称来自于创始人迈克尔·维德纽斯（Michael Widenius）的女儿的名字“My”。MySQL由于其高性能、可靠性以及易用性，已成为最流行的数据库之一，特别是在Web应用中。开源背景： MySQL遵循GPL（GNU通用公共许可证），允许用户自由使用和分发，但基于MySQL的商业软件可能需要遵守不同的许可协议。关系型数据库的优势：关系型数据库是基于关系模型建立的数据库，其中数据以表格形式存储，表与表之间通过共享的列（字段）相互关联。这种模型的优势在于其结构化查询语言（SQL）能够执行复杂的数据查询和操作，保证数据的一致性、完整性和可靠性。 ACID事务特性： ACID是数据库事务正确执行的四个基本要素，分别是原子性（Atomicity）、一致性（Consistency）、隔离性（Isolation）和持久性（Durability）。这些特性保证了事务的可靠性，即数据的完整性。 MySQL应用场景： MySQL广泛应用于网站后端数据存储、企业数据存储以及数据仓库等场景。它可以在多种平台上运行，如Windows、macOS、Linux，并且支持多种编程语言的数据库接口。 MySQL安装与配置：安装MySQL涉及在不同操作系统上运行安装程序，包括Windows、macOS和Linux。配置MySQL包括初始化设置和配置文件详解。安全设置则涵盖修改root用户密码等，以确保数据库的安全运行。 MySQL基础操作：基础操作包括数据库操作、数据表操作和数据操作。数据库操作可以进行创建和删除数据库。数据表操作涉及创建表、修改表结构和删除表。数据操作包括插入数据、查询数据、更新数据和删除数据。 SQL语言基础： SQL是用于访问和处理数据库的标准编程语言。基本的SQL语句包括SELECT、INSERT、UPDATE和DELETE。每条语句都有其特定的用法和语法结构，用于执行不同的数据操作。高级SQL查询：高级SQL查询包括联结查询、子查询和聚合函数。联结查询允许从两个或多个表中查询数据，子查询是嵌套在其他SQL语句中的查询。聚合函数如COUNT、SUM、AVG、MAX和MIN可以对数据集合进行统计和计算。数据库设计：数据库设计包括规范化理论和索引。规范化理论涉及数据的组织结构和关系，通过不同的范式可以减少数据冗余，提高数据完整性。索引是数据库表中用于提高查询性能的辅助数据结构。存储过程与触发器：存储过程是一组为了完成特定功能的SQL语句集，存储在数据库中。触发器是一种特殊类型的存储过程，它会在满足特定条件时自动执行。 MySQL性能优化：性能优化包括查询优化、数据库维护和服务器性能调优。查询优化涉及优化SQL语句，使用慢查询日志和EXPLAIN命令。数据库维护包括备份与恢复，以及表优化。安全性：安全性涉及用户管理，包括创建用户、修改用户权限和删除用户。权限管理确保了数据库的安全性，通过权限表结构可以授予权限和撤销权限。 MySQL复制与高可用性：复制是数据库用来保持多个数据库副本同步的一种技术。配置主从复制可以实现读写分离，提高读取性能。高可用性解决方案确保数据库服务的稳定和连续性，如MySQL Cluster和Galera Cluster。

方法一：使用pdfplumber库和正则表达式 ```python import pdfplumber import re # 读取PDF文件 with pdfplumber.open(r'D:\点宽学院\在线绿色互动如何影响共享型绿色消费行为_——自然联结性的调节作用_王建明.pdf') as pdf: # 遍历每一页 for page in pdf.pages: # 获取当前页的文本内容 text = page.extract_text() # 使用正则表达式分割文本内容 sentences = re.split('。', text) # 打印每一句话 for sentence in sentences: print(sentence + '。') ``` 方法二：使用pdfminer库和自定义函数 ```python import io import pdfminer.high_level import pdfminer.layout # 定义自定义函数，用于获取每一页的文本内容 def extract_text(file_path): output_string = io.StringIO() with open(file_path, 'rb') as file: # 创建PDF解析器 laparams = pdfminer.layout.LAParams() device = pdfminer.high_level.PDFPageAggregator(laparams=laparams) interpreter = pdfminer.high_level.PDFPageInterpreter(device) # 遍历每一页 for page in pdfminer.high_level.extract_pages(file): # 解析一页PDF内容 interpreter.process_page(page) layout = device.get_result() # 获取当前页的文本内容 page_text = '' for element in layout: if isinstance(element, pdfminer.layout.LTTextBoxHorizontal): page_text += element.get_text() # 将当前页的文本内容写入输出流 output_string.write(page_text) # 返回输出流中的文本内容 return output_string.getvalue() # 获取PDF文件的文本内容 text = extract_text(r'D:\点宽学院\在线绿色互动如何影响共享型绿色消费行为_——自然联结性的调节作用_王建明.pdf') # 分割文本内容 sentences = text.split('。') # 打印每一句话 for sentence in sentences: print(sentence + '。') ```

阅读全文

相关推荐

ORACLE数据库学习心得.doc

2021-2022计算机二级等级考试试题及答案No.12171.docx

我想读取"我想读取“D:\点宽学院\在线绿色互动如何影响共享型绿色消费行为_——自然联结性的调节作用_王建明.pdf”这个PDF的内容，把读取的内容合并成一个字符串，然后用中文或英文句号进行分割，把分割的结果打印出来

我想读取“D:\点宽学院”这个文件下所有PDF的内容，先把所有读取到的内容合并成一个字符串并打印出来，用python实现

如果我想让python读取D盘Python文件夹中的Specific_data.xlsx这个文件。我应该怎么写代码

我想用system_attributes保存读取的数据

想打印出"D:\点宽学院"这个文件夹下所有pdf文件内容中的中文名词，请问python如何实现

我想在button1_Click事件中实现读取USB串口数据

如果我想读取寄存器值，应该如何操作？

我想了解matlab读取电离层数据

我想在后面读取excel中的pdf

我想读取“D:\点宽学院”这个文件下所有PDF的内容，先把所有读取到的内容合并成一个字符串，然后用中文或英文句号进行分割，把分割后的内容一一打印出来，用python实现，不能用pypdf2库和subprocess库

python读取matlab数据_python——读取MATLAB数据文件 *.mat

帮我想一个读取数据监护病房体温传感器的代码

上面代码如果我不想定义数据格式，怎么直接读取tif

2021-2022计算机二级等级考试试题及答案No.1796.docx

2021-2022计算机二级等级考试试题及答案No.15663.docx

ORACLE-数据库管理系统介绍.doc

最新推荐

python读取图片的几种方式及图像宽和高的存储顺序

详解Tensorflow数据读取有三种方式（next_batch）

完美解决mysql in条件语句只读取一条信息问题的2种方案

java利用SMB读取远程文件的方法

Java(springboot) 读取txt文本内容代码实例

平尾装配工作平台运输支撑系统设计与应用

管理建模和仿真的文件

MATLAB遗传算法探索：寻找随机性与确定性的平衡艺术

如何在S7-200 SMART PLC中使用MB_Client指令实现Modbus TCP通信？请详细解释从连接建立到数据交换的完整步骤。

MAX-MIN Ant System：用MATLAB解决旅行商问题