PyPDF2 pdf_file.addPage(pdf_file.getPage(i)) AttributeError: '_io.BufferedReader' object has no ...

pdf_pdf.jsie_pdf.js_

PDF.js 是一个开源的 JavaScript 库，由 Mozilla 维护，用于在 Web 浏览器中显示 PDF 文档，无需依赖任何外部插件。这个库的主要目标是提供一个跨平台、跨浏览器的解决方案，使用户能够在任何支持 HTML5 的现代...

pdf.js显示数据流（base64）PDF

pdf.getPage(1).then(function(page) { let scale = 1; let viewport = page.getViewport({ scale: scale }); let canvas = document.getElementById('pdfCanvas'); let context = canvas.getContext('2d'); ...

import PyPDF2 # 打开PDF文件 pdf_file = open('D:\test_report.pdf', 'rb') pdf_reader = PyPDF2.PdfReader(pdf_file) num_pages = pdf_reader.numPages for page in range(num_pages): # 获取当前页面 current_page = pdf_reader.getPage(page) # 提取文字 text = current_page.extract_text() # 打印文字 print(text) pdf_file.close() 代码哪里有问题

pdf_file = open('D:\\test_report.pdf', 'rb') 或者使用原始字符串： python pdf_file = open(r'D:\test_report.pdf', 'rb') 这样就可以正确打开PDF文件了。如果你的PDF文件路径仍然存在问题，请确保...

# -- coding: utf-8 -- import PyPDF2 import sys import io # 创建一个文本输出流，包装标准输出 sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='gbk') # 创建一个txt文件并打开文件对象 with open('output7.txt', 'w', encoding='utf-8') as txt_file: # 打印包含特殊字符的字符串 s = 'PDF文件头信息：\xae' txt_file.write(s + '\n') # 打开PDF文件 pdf_file = open('x1/2023凯程333教育综合应试解析-外国教育史(OCR).pdf', 'rb') # 创建一个PDF读取器对象 pdf_reader = PyPDF2.PdfFileReader(pdf_file,strict=False) # 打印PDF文件头信息 pdf_info = pdf_reader.getDocumentInfo() txt_file.write('PDF文件头信息：\n') for key, value in pdf_info.items(): try: txt_file.write(f'{key}: {value}\n') except UnicodeEncodeError: txt_file.write(f'{key}: {" ".join(value.split())}\n') # 打印PDF文件体信息 for page_num in range(pdf_reader.getNumPages()): page = pdf_reader.getPage(page_num) txt_file.write(f'第{page_num+1}页的内容：\n{page.extractText()}\n') # 打印PDF交叉引用表信息 txt_file.write('PDF交叉引用表信息：\n' + str(pdf_reader.xref) + '\n') # 打印PDF文件尾信息 txt_file.write('PDF文件尾信息：' + str(pdf_reader.trailer) + '\n') # 关闭PDF文件和txt文件 pdf_file.close() txt_file.close()使用pdfminer修改上述代码

下面是使用pdfminer修改后的代码，可以提取PDF文本和元数据信息： # -*- coding: utf-8 -*- import io from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter ...

Traceback (most recent call last): File "D:\pypdf2_problem\python_pypdf2_试验.py", line 53, in <module> MergePDF(file_dir, out_file) File "D:\pypdf2_problem\python_pypdf2_试验.py", line 29, in MergePDF pageCount = len(input.pages) ^^^^^^^^^^^^^^^^ File "D:\python下载\Lib\site-packages\PyPDF2\_page.py", line 2063, in len return self.length_function() ^^^^^^^^^^^^^^^^^^^^^^ File "D:\python下载\Lib\site-packages\PyPDF2\_reader.py", line 445, in _get_num_pages return self.trailer[TK.ROOT]["/Pages"]["/Count"] # type: ignore ~~~~~~~~~~~~^^^^^^^^^ File "D:\python下载\Lib\site-packages\PyPDF2\generic\_data_structures.py", line 266, in getitem return dict.getitem(self, key).get_object() ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "D:\python下载\Lib\site-packages\PyPDF2\generic\_base.py", line 259, in get_object obj = self.pdf.get_object(self) ^^^^^^^^^^^^^^^^^^^^^^^^^ File "D:\python下载\Lib\site-packages\PyPDF2\_reader.py", line 1266, in get_object raise FileNotDecryptedError("File has not been decrypted") PyPDF2.errors.FileNotDecryptedError: File has not been decrypted

这个错误是由PyPDF2库引发的，它表示PDF文件尚未解密。在使用PyPDF2库处理PDF文件之前，你需要确保文件已经被正确解密。你可以尝试使用相关的解密方法来解决这个问题。你可以参考以下示例代码： python from ...

优化这段代码import PyPDF2 # 打开PDF文件 pdf_file = open('2023_PDF.pdf', 'rb') # 创建一个PDF阅读器对象 pdf_reader = PyPDF2.PdfReader(pdf_file) # 获取PDF文件的总页数 # total_pages = pdf_reader.numPages total_pages = len(pdf_reader.pages) # 循环读取每一页的文本内容 for page_number in range(total_pages): # 获取当前页的文本内容 page = pdf_reader.getPage(page_number) text = page.extractText() # 打印当前页的文本内容 print(f"Page {page_number + 1}:") print(text) print("") # 关闭PDF文件 pdf_file.close()

pdf_reader = PyPDF2.PdfReader(pdf_file) # 获取PDF文件的总页数 total_pages = len(pdf_reader.pages) # 循环读取每一页的文本内容 for page_number, page in enumerate(pdf_reader.pages): try: # 获取...

# -- coding: utf-8 -- import PyPDF2 import sys import io # 创建一个文本输出流，包装标准输出 sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8') # 打印包含特殊字符的字符串 s = 'PDF文件头信息：\xae' print(s) # 打开PDF文件 pdf_file = open('x1/hunan28.pdf', 'rb') # 创建一个PDF读取器对象 pdf_reader = PyPDF2.PdfFileReader(pdf_file) # 打印PDF文件头信息 pdf_info = pdf_reader.getDocumentInfo() print('PDF文件头信息：') for key, value in pdf_info.items(): try: print(f'{key}: {value}') except UnicodeEncodeError: print(f'{key}: {" ".join(value.split())}') # 打印PDF文件体信息 for page_num in range(pdf_reader.getNumPages()): page = pdf_reader.getPage(page_num) print(f'第{page_num+1}页的内容：\n{page.extractText()}') # 打印PDF交叉引用表信息 print('PDF交叉引用表信息：\n', pdf_reader.xref) # 打印PDF文件尾信息 print('PDF文件尾信息：', pdf_reader.trailer) # 关闭PDF文件 pdf_file.close()上述代码添加将输出信息保存到TXT文件

pdf_reader = PyPDF2.PdfFileReader(pdf_file) # 打印PDF文件头信息 pdf_info = pdf_reader.getDocumentInfo() txt_file.write('PDF文件头信息：\n') for key, value in pdf_info.items(): try: txt_file....

# -- coding: utf-8 -- import PyPDF2 import sys import io # 创建一个文本输出流，包装标准输出 sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8') # 打印包含特殊字符的字符串 s = 'PDF文件头信息：\xae' print(s) # 打开PDF文件 pdf_file = open('x1/2023凯程333教育综合应试解析-外国教育史(OCR).pdf', 'rb') # 创建一个PDF读取器对象 pdf_reader = PyPDF2.PdfFileReader(pdf_file) # 打印PDF文件头信息 pdf_info = pdf_reader.getDocumentInfo() print('PDF文件头信息：') for key, value in pdf_info.items(): try: print(f'{key}: {value}') except UnicodeEncodeError: print(f'{key}: {" ".join(value.split())}') # 打印PDF文件体信息 for page_num in range(pdf_reader.getNumPages()): page = pdf_reader.getPage(page_num) print(f'第{page_num+1}页的内容：\n{page.extractText()}') # 打印PDF交叉引用表信息 print('PDF交叉引用表信息：\n', pdf_reader.xref) # 打印PDF文件尾信息 print('PDF文件尾信息：', pdf_reader.trailer) # 关闭PDF文件 pdf_file.close()上述代码改写成用pdfminer

可以使用pdfminer库来代替PyPDF2完成相同的功能。下面是相应的代码： python import io from pdfminer.pdfparser import PDFParser from pdfminer.pdfdocument import PDFDocument from pdfminer.pdfpage import...

import PyPDF2 import pandas as pd # 打开PDF文件 pdf_file = open('example.pdf', 'rb') # 创建PDF阅读器对象 pdf_reader = PyPDF2.PdfFileReader(pdf_file) # 获取PDF页面数 num_pages = pdf_reader.numPages # 提取每个页面的文本内容 text_list = [] for page in range(num_pages): pdf_page = pdf_reader.getPage(page) text = pdf_page.extractText() text_list.append(text) # 将文本转换为pandas数据帧 df = pd.DataFrame(text_list) # 将数据写入Excel文件 df.to_excel('example.xlsx', index=False, header=False)

这是一个Python脚本，用于将一个名为"example.pdf"的PDF文件转换成一个名为"example.xlsx"的Excel文件，并且使用了PyPDF2和pandas两个Python库。具体实现过程如下： 1. 导入PyPDF2和pandas库 import PyPDF2 ...

import os import PyPDF2 # PDF文件所在目录 pdf_folder = 'C:\Desktop\papers' # TXT文件所在目录 txt_folder = 'C:\Desktop\papers' # 遍历PDF文件夹中的所有PDF文件 for filename in os.listdir(pdf_papers): if filename.endswith('.pdf'): # 读取PDF文件 pdf_path = os.path.join(pdf_papers, filename) with open(pdf_path, 'rb') as f: pdf_reader = PyPDF2.PdfFileReader(f) # 遍历PDF文件中的所有页面 for page_num in range(pdf_reader.getNumPages()): # 将页面中的文本提取出来并写入TXT文件 page = pdf_reader.getPage(page_num) text = page.extractText() txt_filename = os.path.splitext(filename)[0] + '-page{}.txt'.format(page_num+1) txt_path = os.path.join(txt_folder, txt_filename) with open(txt_path, 'w', encoding='utf-8') as txt_file: txt_file.write(text)

4. 对于每一个PDF文件，使用PyPDF2模块读取其内容。 5. 遍历PDF文件中的所有页面，将每一页中的文本提取出来。 6. 将提取出来的文本写入到同目录下的TXT文件中，文件名为原PDF文件名加上页码。

import PyPDF4 import pandas as pd # 打开PDF文件并获取第一页 pdf_file = open('1.pdf', 'rb') pdf_reader = PyPDF4.PdfFileReader(pdf_file) page = pdf_reader.getPage(0) # 将PDF页面转换为文本 page_text = page.extractText() # 将文本数据转换为表格数据 table_data = [] for row in page_text.strip().split('\n'): table_data.append([cell.strip() for cell in row.split()]) # 将表格数据转换为pandas DataFrame df = pd.DataFrame(table_data[1:], columns=table_data[0]) # 将DataFrame输出到Excel文件 df.to_excel('example.xlsx', index=False)

你的代码看起来没有问题，但是输出的 Excel 文件是空的，这可能是因为从 PDF 文件提取的文本数据没有被正确转换为表格数据。你可以尝试在转换文本数据为表格数据时，打印出每一行的内容，以便检查是否有数据丢失或...

import PyPDF2 import pandas as pd # 打开PDF文件并获取第一页 pdf_file = open('1.pdf', 'rb') pdf_reader = PyPDF2.PdfReader(pdf_file) page = pdf_reader.pages(0) # 将PDF页面转换为文本 page_text = page.extractText() # 将文本数据转换为表格数据 table_data = [] for row in page_text.split('\n'): table_data.append(row.split()) # 将表格数据转换为pandas DataFrame df = pd.DataFrame(table_data[1:], columns=table_data[0]) # 将DataFrame输出到Excel文件 df.to_excel('example.xlsx', index=False)

pdf_reader = PyPDF2.PdfFileReader(pdf_file) page = pdf_reader.getPage(0) # 将PDF页面转换为文本 page_text = page.extractText() # 将文本数据转换为表格数据 table_data = [] for row in page_text.strip()....

给你一个jingqsdfgnvsdljk

PyPDF2 pdf_file.addPage(pdf_file.getPage(i)) AttributeError: '_io.BufferedReader' object has no ...

AttributeError: '_io.BufferedReader' object has no attribute 'getPage'

相关推荐

PyPDF2 pdf_file.addPage(pdf_file.getPage(i)) AttributeError: '_io.BufferedReader' object has no ...

AttributeError: '_io.BufferedReader' object has no attribute 'getPage'

相关推荐

pdf_pdf.jsie_pdf.js_

pdf.js显示数据流（base64）PDF

给你一个jingqsdfgnvsdljk

MPSK调制解调MATLAB仿真源代码

一个基于Java SE的跳跃忍者游戏.zip

更新城市蔓延指数数据集（1990-2023年）.xlsx

Ripro9.0免扩展二开版WordPress博客主题Ripro全解密无后门

最新推荐

Python实现PyPDF2处理PDF文件的方法示例

vue插件开发之使用pdf.js实现手机端在线预览pdf文档的方法

给你一个jingqsdfgnvsdljk

MPSK调制解调MATLAB仿真源代码

正整数数组验证库：确保值符合正整数规则

管理建模和仿真的文件

【损失函数与随机梯度下降】：探索学习率对损失函数的影响，实现高效模型训练

在ADS软件中，如何选择并优化低噪声放大器的直流工作点以实现最佳性能？

系统移植工具集：镜像、工具链及其他必备软件包

"互动学习：行动中的多样性与论文攻读经历"