修改下面的代码：增加截取120*120区域for filename in os.listdir(path1): # 判断是否为PDF文件 if filename.endswith(".pdf"): # 使用fitz库打开PDF文件，并获取页面数量 pdf_path = os.path.join(path1, filename) doc = fitz.open(pdf_path) page_count = doc.page_count # 逐页将PDF保存为高清图片 for i in range(page_count): page = doc[i] zoom = 4 # 放大倍数 rotate = int(0) # 不旋转 trans = fitz.Matrix(zoom, zoom).preRotate(rotate) pix = page.get_pixmap(matrix=trans, alpha=False) img_path = os.path.join(path2, f"{os.path.splitext(filename)[0]}_{i+1}.jpg") img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples) img.save(img_path, dpi=(300, 300)) # 设置输出图片的分辨率 # 关闭PDF文件 doc.close() # 删除原PDF文件 os.remove(pdf_path)

时间: 2024-02-14 11:24:58 浏览: 168

解决python中os.listdir()函数读取文件夹下文件的乱序和排序问题

5星 · 资源好评率100%

在Python编程中，`os.listdir()` 是一个非常实用的函数，它用于获取指定路径下的所有文件和子目录的名称，返回的结果是一个包含字符串的列表。然而，这个函数的一个特点是返回的列表顺序并不是固定的，可能会根据文件系统内部的实现而有所不同，这可能会导致在处理大量文件时出现混乱。本文将详细介绍如何解决 `os.listdir()` 返回文件名乱序的问题，并提供一种排序解决方案。了解 `os.listdir()` 的基本用法。以下是一个简单的示例： ```python import os dir_path = 'F:/Home_01/img' # 指定目录路径 file_names = os.listdir(dir_path) # 获取目录中的文件和子目录名 ``` `file_names` 列表包含了 `dir_path` 目录下所有文件和子目录的名称，但这些名称并不保证按任何特定顺序排列。如果需要按照某种规则（如字母顺序、数字顺序等）排序，就需要对列表进行排序操作。针对数字序号的文件名，我们可以利用 Python 的 `sort()` 函数结合 `lambda` 表达式来实现。假设文件名格式为 `xx.jpg`，其中 `xx` 是两位数字，可以这样做： ```python file_names.sort(key=lambda x: int(x[:-4])) # 去掉'.jpg'之前的字符串并转换为整数进行排序 ``` 这里的 `key` 参数是一个函数，用于提供每个元素的排序依据。`lambda x: int(x[:-4])` 表示取字符串 `x` 从开头到倒数第四位（即 '.' 之前的部分），将其转换为整数。这样，文件名将按照数字部分从小到大排序。如果文件名格式不同，比如 `Chapter-01.txt`，则需要调整 `lambda` 表达式以适应文件名的结构，例如： ```python file_names.sort(key=lambda x: int(x.split('-')[-1].split('.')[0])) ``` 在这个例子中，我们使用 `split('-')` 将字符串按 '-' 分割，然后取最后一个元素，再用 `split('.')` 分割获取数字部分，最后将其转换为整数进行排序。总结来说，解决 `os.listdir()` 函数返回文件名乱序问题的关键在于对返回的列表进行自定义排序。通过设置 `sort()` 函数的 `key` 参数，可以根据文件名的具体结构定制排序逻辑，确保文件名按照预期顺序排列。在处理大量文件时，这种方法尤其有用，因为它可以提供一致性和可预测性，便于后续处理。

下面是修改后的代码，增加了截取120*120区域的功能： ```python import os from PIL import Image import fitz path1 = 'path/to/your/input/folder' # 输入文件夹路径 path2 = 'path/to/your/output/folder' # 输出文件夹路径 for filename in os.listdir(path1): # 判断是否为PDF文件 if filename.endswith(".pdf"): # 使用fitz库打开PDF文件，并获取页面数量 pdf_path = os.path.join(path1, filename) doc = fitz.open(pdf_path) page_count = doc.page_count # 逐页将PDF保存为高清图片 for i in range(page_count): page = doc[i] zoom = 4 # 放大倍数 rotate = int(0) # 不旋转 trans = fitz.Matrix(zoom, zoom).preRotate(rotate) pix = page.get_pixmap(matrix=trans, alpha=False) # 截取指定区域 cropped_pix = pix.crop((0, 0, 120, 120)) img_path = os.path.join(path2, f"{os.path.splitext(filename)[0]}_{i+1}.jpg") img = Image.frombytes("RGB", [cropped_pix.width, cropped_pix.height], cropped_pix.samples) img.save(img_path, dpi=(300, 300)) # 设置输出图片的分辨率 # 关闭PDF文件 doc.close() # 删除原PDF文件 os.remove(pdf_path) ``` 请替换`path1`为你的输入文件夹路径，`path2`为你的输出文件夹路径。这段代码将会遍历输入文件夹中的PDF文件，将每个页面截取120*120区域，并保存为高清图片。最后，会删除原始的PDF文件。确保你已经安装了所需的库（fitz和PIL），可以使用`pip install PyMuPDF pillow`命令安装它们。

阅读全文

相关推荐

Python使用os.listdir和os.walk获取文件路径

python os.path.isfile()因参数问题判断错误的解决

for filename in os.listdir(path):

filename for filename in os.listdir(folder_path) if filename.endswith('.txt

请修改jupyter代码for image_filename in os.listdir(subfolder_path) if os.path.isdir(os.path.join(dir, d)) and not d.startswith('.'):中的错误

file_list = [filename for filename in os.listdir(folder_path) if filename.endswith('.xlsx')]这行代码能否同时检测xlsx和xls文件

for filename in os.listdir(input_dir):

解释下for filename in os.listdir("."):

最新推荐

基于智能温度监测系统设计.doc

GitHub图片浏览插件：直观展示代码中的图像

管理建模和仿真的文件

【OPPO手机故障诊断专家】：工程指令快速定位与解决

求[100，900]之间相差为12的素数对（注：要求素数对的两个素数均在该范围内）的个数

Android IPTV项目：直播频道的实时流媒体实现

"互动学习：行动中的多样性与论文攻读经历"

【OPPO手机工程模式终极指南】：掌握这些秘籍，故障排查不再难！

前端在json文件里写模板，可以换行 有空格现在在文本框的时候

机器学习在医院再入院率预测中的应用分析

前端在json文件里写模板，可以换行有空格现在在文本框的时候