with open(os.path.join(desktop_path, 'ct1.txt'), 'w', encoding='utf-8') as f:

这是一个使用 Python 语言中的 open 函数来打开文件的例子。其中，os.path.join(desktop_path, 'ct1.txt') 用于获取桌面上的 ct1.txt 文件的路径，'w' 表示以写入模式打开文件，encoding='utf-8' 表示以 UTF-8 编码方式写入文件内容。接下来，将打开的文件对象赋值给变量 f，可以通过 f 来操作文件。此处使用了 with 语句，可以自动关闭文件，避免忘记关闭文件而导致资源浪费或文件损坏的问题。

import os import pdfplumber # 文本保存目录 txts_dir = "./Users/hh/Desktop/python/fileshunan" for path in os.listdir(files_dir): if os.path.isfile(os.path.join(files_dir, path)): file = os.path.join(files_dir, path) print(file) if file.endswith(".pdf"): with pdfplumber.open(file) as pdf: txt_file = open(txts_dir + path[0:-4] + ".txt", mode='w', encoding='utf-8') for page in pdf.pages: txt_file.write(page.extract_text()) elif file.endswith(".html"): soup = BeautifulSoup(open(file, encoding='utf-8')) with open(txts_dir + path[0:-5] + ".txt", mode='w', encoding='utf-8') as txt_file: txt_file.write(soup.get_text()) #将文件保存为文本

根据你提供的代码，你似乎想要将保存在文件夹中的 PDF 和 HTML 文件转换为文本文件。你使用了 `pdfplumber` 库来处理 PDF 文件，并使用 BeautifulSoup 库处理 HTML 文件。首先，请确保你已经导入了以下库： ```python import os import pdfplumber from bs4 import BeautifulSoup ``` 然后，你可以使用以下代码将文件转换为文本： ```python # 文本保存目录 txts_dir = "/Users/hh/Desktop/python/fileshunan/" for path in os.listdir(files_dir): if os.path.isfile(os.path.join(files_dir, path)): file = os.path.join(files_dir, path) print(file) if file.endswith(".pdf"): with pdfplumber.open(file) as pdf: txt_file = open(txts_dir + path[0:-4] + ".txt", mode='w', encoding='utf-8') for page in pdf.pages: txt_file.write(page.extract_text()) txt_file.close() elif file.endswith(".html"): soup = BeautifulSoup(open(file, encoding='utf-8'), 'lxml') with open(txts_dir + path[0:-5] + ".txt", mode='w', encoding='utf-8') as txt_file: txt_file.write(soup.get_text()) ``` 在上述代码中，我们首先定义了保存文本文件的目录路径 `txts_dir`。然后，我们使用 `os.listdir()` 函数遍历指定文件夹中的文件。对于每个文件，我们使用 `os.path.isfile()` 函数来判断是否为文件，并使用 `os.path.join()` 函数获取完整路径。如果文件是以 `.pdf` 结尾的 PDF 文件，我们使用 `pdfplumber.open()` 函数打开 PDF 文件，并使用循环遍历每个页面。我们使用 `page.extract_text()` 方法提取页面的文本内容，并将其写入到以原文件名为基础的新文本文件中。如果文件是以 `.html` 结尾的 HTML 文件，我们使用 BeautifulSoup 打开文件并解析 HTML 内容。然后，我们使用 `soup.get_text()` 方法获取 HTML 的纯文本内容，并将其写入到以原文件名为基础的新文本文件中。请确保你已经设置好了 `txts_dir` 变量，它指定了保存文本文件的目录路径。请注意，以上代码仅供参考，并需要根据你的实际文件路径和需求进行适当的修改。另外，记得导入所需的库。如果你有任何进一步的问题，请随时提问。

import os import PyPDF2 # PDF文件所在目录 pdf_folder = 'C:\Desktop\papers' # TXT文件所在目录 txt_folder = 'C:\Desktop\papers' # 遍历PDF文件夹中的所有PDF文件 for filename in os.listdir(pdf_papers): if filename.endswith('.pdf'): # 读取PDF文件 pdf_path = os.path.join(pdf_papers, filename) with open(pdf_path, 'rb') as f: pdf_reader = PyPDF2.PdfFileReader(f) # 遍历PDF文件中的所有页面 for page_num in range(pdf_reader.getNumPages()): # 将页面中的文本提取出来并写入TXT文件 page = pdf_reader.getPage(page_num) text = page.extractText() txt_filename = os.path.splitext(filename)[0] + '-page{}.txt'.format(page_num+1) txt_path = os.path.join(txt_folder, txt_filename) with open(txt_path, 'w', encoding='utf-8') as txt_file: txt_file.write(text)

这段代码是一个将PDF文件转化为TXT文件的Python脚本，它使用了PyPDF2库来读取PDF文件，遍历PDF文件中的所有页面，并将页面中的文本提取出来写入TXT文件。下面是代码的具体解释： 1. 首先导入了os和PyPDF2两个库。 2. 定义了两个变量pdf_folder和txt_folder，分别表示PDF文件和TXT文件所在的目录。 3. 使用os库的listdir函数遍历PDF文件夹中的所有PDF文件，如果文件名以'.pdf'结尾，则读取该PDF文件。 4. 使用PyPDF2库的PdfFileReader函数读取PDF文件，并遍历PDF文件中的所有页面。 5. 使用getPage函数获取页面对象，再使用extractText函数提取出页面中的文本。 6. 构建TXT文件名，将PDF文件名去掉扩展名后加上'-page'和页面编号，再加上'.txt'扩展名。 7. 使用open函数打开TXT文件，并将文本写入文件中。 8. 重复步骤4到7，直到遍历完PDF文件中的所有页面。总的来说，这段代码是一个简单的PDF转TXT脚本，可以方便地将PDF文件中的文本提取出来。

with open(os.path.join(desktop_path, 'ct1.txt'), 'w', encoding='utf-8') as f:

相关推荐

PB.rar_open_pb 分辨率_pb控件_site:www.pudn.com

openEuler-20.03-LTS-SP2-x86_64-dvd.part1.rar

open-vm-tools-desktop-11.0.5-3.el7_9.3.x86_64.rpm

Python读取txt文件中的UTF-8数据：UTF-8数据处理，全球化数据处理

with open(csv_file, "w", newline="", encoding="utf-8-sig") as f: writer = csv.writer(f) writer.writerow(["Talk ID", "Time", "Sender ID", "Receive ID", "Talk Type", "Content", "File Name"])

AI-Integrated-Ludo-Game:Sa Samarpan Dasgupta在Tkinter的帮助下用Python制作的AI Ludo游戏....:face_with_open_mouth:this此游戏中未使用任何预先构建的AI算法....仅使用My Brain制作...:smiling_face_with_heart-eyes:

最新推荐

基于STM32控制遥控车的蓝牙应用程序

Memcached 1.2.4 版本源码包

软件项目开发全过程文档资料.zip

Java基础上机题-分类整理版.doc

京瓷TASKalfa系列维修手册：安全与操作指南

管理建模和仿真的文件

【进阶】入侵检测系统简介

轨道障碍物智能识别系统开发

小波变换在视频压缩中的应用

"互动学习：行动中的多样性与论文攻读经历"