通过python实现自动识别文字并且自动打开文件夹找到pdf格式文件进扫描并保存到excel里面

这个需求可以用Python中的OCR库和操作系统库来实现。以下是一个基本的代码示例： ```python import os import pytesseract import cv2 import pandas as pd # 设置 OCR 库路径和语言 pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe' language = 'eng' # 搜索 PDF 文件并且进行 OCR 识别 pdf_folder = 'path/to/folder' pdf_files = [f for f in os.listdir(pdf_folder) if f.endswith('.pdf')] pdf_text = [] for pdf_file in pdf_files: pdf_path = os.path.join(pdf_folder, pdf_file) # 使用 pdf2image 库将 PDF 转换为图像 images = pdf2image.convert_from_path(pdf_path) for image in images: # 将图像转换为灰度图像 gray = cv2.cvtColor(np.array(image), cv2.COLOR_BGR2GRAY) # 使用 OCR 库进行文字识别 text = pytesseract.image_to_string(gray, lang=language) pdf_text.append((pdf_file, text)) # 将结果保存到 Excel 文件中 df = pd.DataFrame(pdf_text, columns=['File', 'Text']) df.to_excel('pdf_text.xlsx', index=False) ``` 在这个代码中，首先我们使用了 `os` 库来搜索 PDF 文件，然后使用 `pdf2image` 库将 PDF 转换为图像，使用 `pytesseract` 库进行 OCR 文字识别。最后，将识别结果保存到 Excel 文件中。需要注意的是，这个代码只是一个基本的示例，实际使用中可能需要根据具体情况进行修改和优化。例如，OCR 的准确性可能会受到图像质量和文本复杂度的影响，需要通过调整参数和使用更高级的 OCR 库来提高准确性。

通过python实现自动识别文字并且自动打开文件夹找到pdf格式文件进扫描并保存到excel里面

相关推荐

Python实现办公自动化-自动化管理电脑文件及文件夹

Python办公自动化之文件与文件夹教程特别篇.pdf

Python识别加密的word文件并移动到单独文件夹.zip

通过python实现自动识别文字并保存到excel里面

使用python语言批量识别pdf中的表格，并保存到excel中

使用python代码查找某文件夹内所有文件夹及文件名称并保存到excel表中

用python代码实现查找文件夹下所有以“.dw”结尾的文件，并保存到excel表中

Windows系统桌面文件根据格式自动分类到不同的文件夹，python代码实现

python批量将word文件生成pdf文件并保存到另一个文件夹

python实现把文件夹中的caj文件批量转换为pdf格式并以相同名字命名

python中实现一个文件夹内的excel按照指定格式自动打印

python实现把文件夹中的caj文件批量转换为pdf格式且名字相同，并存入新文件夹中

python自动控制鼠标滚动截屏并保存到文件夹

python批量实现ocr识别pdf到excel中

自动爬取网络上的图片保存到指定文件夹中python实现

python如何将.csv文件的全部内容自动调整列宽，并保存为excel文件

Python 实现获取文件夹下所有文件名，包括子文件下的文件名,并保存到txt

python通过excel表格中的手机号批量搜索陌生微信号并保存头像到文件夹

python提取pdf中表格数据并保存到excel中

最新推荐

Python实现抓取HTML网页并以PDF文件形式保存的方法

python按顺序重命名文件并分类转移到各个文件夹中的实现代码

python遍历文件夹下所有excel文件

python实现从pdf文件中提取文本,并自动翻译的方法

python自动化办公手册.pdf

RTL8188FU-Linux-v5.7.4.2-36687.20200602.tar(20765).gz

管理建模和仿真的文件

：YOLO目标检测算法的挑战与机遇：数据质量、计算资源与算法优化，探索未来发展方向

c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf