分别用 'r' 与 'rb' 方式打开、read()读取下面文件，并打印输出，查看区别 '07-8-pic_char.txt'

以下是使用 'r' 方式打开、read()读取并输出文件的代码： ``` with open('07-8-pic_char.txt', 'r') as f: data = f.read() print(data) ``` 以下是使用 'rb' 方式打开、read()读取并输出文件的代码： ``` with open('07-8-pic_char.txt', 'rb') as f: data = f.read() print(data) ``` 两段代码的区别在于打开文件的方式。'r' 方式表示以文本模式打开文件，'rb' 方式表示以二进制模式打开文件。在文本模式下，Python会自动将读取的数据转换为字符串，而在二进制模式下，读取的数据不会被自动转换。因此，使用 'r' 方式读取文件时，输出的内容是文件中的字符串；而使用 'rb' 方式读取文件时，输出的内容是文件中的二进制数据（即字节串）。

-- coding: utf-8 -- import PyPDF2 import sys import io # 创建一个文本输出流，包装标准输出 sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8') # 创建一个txt文件并打开文件对象 with open('output1.txt', 'w', encoding='utf-8') as txt_file: # 打印包含特殊字符的字符串 s = 'PDF文件头信息：\xae' txt_file.write(s + '\n') # 打开PDF文件 pdf_file = open('x1/hunan28.pdf', 'rb') # 创建一个PDF读取器对象 pdf_reader = PyPDF2.PdfFileReader(pdf_file) # 打印PDF文件头信息 pdf_info = pdf_reader.getDocumentInfo() txt_file.write('PDF文件头信息：\n') for key, value in pdf_info.items(): try: txt_file.write(f'{key}: {value}\n') except UnicodeEncodeError: txt_file.write(f'{key}: {" ".join(value.split())}\n') # 打印PDF文件体信息 for page_num in range(pdf_reader.getNumPages()): page = pdf_reader.getPage(page_num) page_content = page.extractText().encode('utf-8') txt_file.write(f'第{page_num+1}页的内容：\n{page_content}\n') # 打印PDF交叉引用表信息 txt_file.write('PDF交叉引用表信息：\n' + str(pdf_reader.xref) + '\n') # 打印PDF文件尾信息 txt_file.write('PDF文件尾信息：' + str(pdf_reader.trailer) + '\n') # 关闭PDF文件和txt文件 pdf_file.close() txt_file.close()上述代码添加将字符串分门别类提取出各个对象信息，保存起来

你的代码已经可以将 PDF 文件的信息提取出来并保存到一个 txt 文件中了。如果你想要将不同类型的信息分门别类，可以在保存信息的时候添加标识符或者分隔符，这样就可以方便地对不同类型的信息进行提取和处理。比如： ```python # 打印PDF文件头信息 txt_file.write('=== PDF文件头信息 ===\n') for key, value in pdf_info.items(): try: txt_file.write(f'{key}: {value}\n') except UnicodeEncodeError: txt_file.write(f'{key}: {" ".join(value.split())}\n') # 打印PDF文件体信息 txt_file.write('=== PDF文件体信息 ===\n') for page_num in range(pdf_reader.getNumPages()): page = pdf_reader.getPage(page_num) page_content = page.extractText().encode('utf-8') txt_file.write(f'第{page_num+1}页的内容：\n{page_content}\n') # 打印PDF交叉引用表信息 txt_file.write('=== PDF交叉引用表信息 ===\n') txt_file.write(str(pdf_reader.xref) + '\n') # 打印PDF文件尾信息 txt_file.write('=== PDF文件尾信息 ===\n') txt_file.write(str(pdf_reader.trailer) + '\n') ``` 上述代码在保存不同类型的信息时，添加了标识符，方便后续处理。

# -- coding: utf-8 -- import PyPDF2 import sys import io # 创建一个文本输出流，包装标准输出 sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='gbk') # 创建一个txt文件并打开文件对象 with open('output7.txt', 'w', encoding='utf-8') as txt_file: # 打印包含特殊字符的字符串 s = 'PDF文件头信息：\xae' txt_file.write(s + '\n') # 打开PDF文件 pdf_file = open('x1/2023凯程333教育综合应试解析-外国教育史(OCR).pdf', 'rb') # 创建一个PDF读取器对象 pdf_reader = PyPDF2.PdfFileReader(pdf_file,strict=False) # 打印PDF文件头信息 pdf_info = pdf_reader.getDocumentInfo() txt_file.write('PDF文件头信息：\n') for key, value in pdf_info.items(): try: txt_file.write(f'{key}: {value}\n') except UnicodeEncodeError: txt_file.write(f'{key}: {" ".join(value.split())}\n') # 打印PDF文件体信息 for page_num in range(pdf_reader.getNumPages()): page = pdf_reader.getPage(page_num) txt_file.write(f'第{page_num+1}页的内容：\n{page.extractText()}\n') # 打印PDF交叉引用表信息 txt_file.write('PDF交叉引用表信息：\n' + str(pdf_reader.xref) + '\n') # 打印PDF文件尾信息 txt_file.write('PDF文件尾信息：' + str(pdf_reader.trailer) + '\n') # 关闭PDF文件和txt文件 pdf_file.close() txt_file.close()使用pdfminer修改上述代码

下面是使用pdfminer修改后的代码，可以提取PDF文本和元数据信息： ``` # -*- coding: utf-8 -*- import io from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfpage import PDFPage from pdfminer.pdfparser import PDFParser from pdfminer.pdfdocument import PDFDocument # 创建一个文本输出流，包装标准输出 sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='gbk') # 创建一个txt文件并打开文件对象 with open('output7.txt', 'w', encoding='utf-8') as txt_file: # 打开PDF文件 with open('x1/2023凯程333教育综合应试解析-外国教育史(OCR).pdf', 'rb') as pdf_file: # 创建一个PDF解析器对象 parser = PDFParser(pdf_file) # 创建一个PDF文档对象 document = PDFDocument(parser) # 检查文档是否可用 if not document.is_extractable: raise PDFTextExtractionNotAllowed # 创建一个PDF资源管理器对象 rsrcmgr = PDFResourceManager() # 创建一个PDF设备对象 laparams = LAParams() device = TextConverter(rsrcmgr, txt_file, laparams=laparams) # 创建一个PDF解释器对象 interpreter = PDFPageInterpreter(rsrcmgr, device) # 打印PDF文件头信息 pdf_info = document.info txt_file.write('PDF文件头信息：\n') for key, value in pdf_info.items(): try: txt_file.write(f'{key}: {value}\n') except UnicodeEncodeError: txt_file.write(f'{key}: {" ".join(value.split())}\n') # 打印PDF文件体信息 for page in PDFPage.create_pages(document): interpreter.process_page(page) # 打印PDF文件尾信息 txt_file.write('PDF文件尾信息：' + str(document.info) + '\n') # 关闭txt文件 txt_file.close() ``` 需要注意的是，使用pdfminer需要先安装pdfminer模块，可以使用`pip install pdfminer`命令进行安装。同时，需要注意PDF文件中可能会有不规范的编码或加密等问题导致解析失败，需要考虑相关处理。

分别用 'r' 与 'rb' 方式打开、read()读取下面文件，并打印输出，查看区别 '07-8-pic_char.txt'

相关推荐

文件的读取和图形显示

读取txt文件中的数字并输出

读取.pic格式文件

NBVS06.00_NBVS06-01F4_TTH-307_000_VI4302-PC-01_CP1_RP0_2888_2024MAR09044735_dlogTDO.csv.gz使用python解压文件到本地

编写一段代码，使用chardet库读取utf-8-sig编码的txt文件并转化成utf-8编码的txt文件

with open('D:/2023-0424/inout_v3_output.txt', 'w', encoding='utf-8') as txt:怎么转化成decode

把文本文件“test.txt”中的所有信息使用pickle进行序列化并写入二进制文件“test_pickle.dat”，然后再读取文件内容并反序列化，并分别输出文本文件“test.txt”、二进制文件“test_pickle.dat”中的内容，测试序列化是否成功。

请使用字节流的方式读出文件exp5_1.txt中内容，然后将文件中的所有奇数写入文件ex5_3.txt中，使用字符流的方式读出文件exp5_2.txt中内容，然后将文件中的所有偶数写入文件exp5_4.txt中。

用文本编辑器生成一个txt格式的文件，文件内容自定分别用文本文件和二进制文件方式读入并打印输出文件内容

E:\AI\live_mocap-master\tmp\kpts3ds_mengnan.pkl查看这个文件

python创建txt文件并写入一个字符串，在用二进制方式打开读取每个字符

train-images-idx3-ubyte.gz数据集读取与显示

分别用文本文件和二进制文件方式读入，并打印输出文件内容。 （2）分别用绝对路径和相对路径方式读人，并打印输出文件内容。

关于文件的读写各种方法

最新推荐

nucleo-g070RB开发板-数据手册

将tensorflow模型打包成PB文件及PB文件读取方式

TensorFlow查看输入节点和输出节点名称方式

multisim仿真电路实例700例.rar

2007-2021年 企业数字化转型测算结果和无形资产明细

数据结构课程设计：模块化比较多种排序算法

管理建模和仿真的文件

STM32单片机小车智能巡逻车设计与实现：打造智能巡逻车，开启小车新时代

devc++如何监视

哈夫曼树实现文件压缩解压程序分析

分别用文本文件和二进制文件方式读入，并打印输出文件内容。（2）分别用绝对路径和相对路径方式读人，并打印输出文件内容。

2007-2021年企业数字化转型测算结果和无形资产明细