import os import PyPDF2 # PDF文件所在目录 pdf_folder = 'C:\Desktop\papers' # TXT文件所在目录 txt_folder = 'C:\Desktop\papers' # 遍历PDF文件夹中的所有PDF文件 for filename in os.listdir(pdf_papers): if filename.endswith('.pdf'): # 读取PDF文件 pdf_path = os.path.join(pdf_papers, filename) with open(pdf_path, 'rb') as f: pdf_reader = PyPDF2.PdfFileReader(f) # 遍历PDF文件中的所有页面 for page_num in range(pdf_reader.getNumPages()): # 将页面中的文本提取出来并写入TXT文件 page = pdf_reader.getPage(page_num) text = page.extractText() txt_filename = os.path.splitext(filename)[0] + '-page{}.txt'.format(page_num+1) txt_path = os.path.join(txt_folder, txt_filename) with open(txt_path, 'w', encoding='utf-8') as txt_file: txt_file.write(text)
时间: 2023-06-17 19:04:55 浏览: 137
这是一个Python脚本,用于将一个目录中的所有PDF文件中的文本提取出来,并将其写入到同目录下的TXT文件中。具体实现步骤如下:
1. 导入必要的模块:os模块和PyPDF2模块。
2. 定义PDF文件所在目录和TXT文件所在目录。
3. 遍历PDF文件夹中的所有PDF文件。
4. 对于每一个PDF文件,使用PyPDF2模块读取其内容。
5. 遍历PDF文件中的所有页面,将每一页中的文本提取出来。
6. 将提取出来的文本写入到同目录下的TXT文件中,文件名为原PDF文件名加上页码。
相关问题
import flowio import pandas as pd import os import csv # 设置输入和输出文件夹 input_folder = "D:/test_data_Fcs/" output_folder = "D:/test_data_Fcs/" # 遍历输入文件夹中的所有fcs文件 for filename in os.listdir(input_folder): if filename.endswith(".fcs"): # 从fcs文件中读取数据 fcs = flowio.FlowData(os.path.join(input_folder, filename)) events = fcs.events() # 将数据转换为pandas DataFrame df = pd.DataFrame(events) # 将DataFrame保存为csv文件 output_filename = os.path.join(output_folder, filename[:-4] + ".csv") df.to_csv(output_filename, index=False)出错:array.array' object is not callable
根据你提供的代码,我发现你没有在脚本开头导入 `numpy` 库,而 `flowio` 库的 `events()` 函数返回的是 `numpy.ndarray` 类型,需要使用 `numpy` 库的函数进行处理。因此,你需要在脚本开头导入 `numpy` 库,例如:`import numpy as np`。然后,你需要将 `events` 转换为 `pandas.DataFrame` 类型前,对它进行处理,代码如下:
```python
import flowio
import pandas as pd
import numpy as np
import os
import csv
# 设置输入和输出文件夹
input_folder = "D:/test_data_Fcs/"
output_folder = "D:/test_data_Fcs/"
# 遍历输入文件夹中的所有fcs文件
for filename in os.listdir(input_folder):
if filename.endswith(".fcs"):
# 从fcs文件中读取数据
fcs = flowio.FlowData(os.path.join(input_folder, filename))
# 处理events
events = fcs.events()
events = np.array(events.tolist())
# 将数据转换为pandas DataFrame
df = pd.DataFrame(events)
# 将DataFrame保存为csv文件
output_filename = os.path.join(output_folder, filename[:-4] + ".csv")
df.to_csv(output_filename, index=False)
```
这样就可以避免 `'array.array' object is not callable` 的问题了。
import os from datetime import datetime import random import string def batch_rename_files(folder_path, random_string_length=0): """ 批量重命名文件,名字改为该文件的创建或修改日期,如果有重名的文件,可以添加一个随机字符串 :param folder_path: 文件夹路径 :param random_string_length: 随机字符串长度,默认为0 """ for filename in os.listdir(folder_path): # 获取文件的创建时间或修改时间 full_path = os.path.join(folder_path, filename) if os.path.isfile(full_path): timestamp = os.path.getmtime(full_path) else: continue # 格式化时间 date_time = datetime.fromtimestamp(timestamp) new_name = date_time.strftime("%Y-%m-%d %H-%M-%S") # 添加随机字符串 if random_string_length > 0: random_string = ''.join(random.choices(string.ascii_lowercase + string.digits, k=random_string_length)) new_name += '-' + random_string # 拼接新的文件名 file_extension = os.path.splitext(filename)[1] new_filename = new_name + file_extension new_full_path = os.path.join(folder_path, new_filename) # 重命名文件 os.rename(full_path, new_full_path) if __name__ == '__main__': folder_path = 'your_folder_path' batch_rename_files(folder_path, random_string_length=5)
好的,根据你的要求,将以上代码修改为将修改后的文件命名恢复原来的命名,可以按照以下方式修改:
```
import os
from datetime import datetime
import random
import string
def restore_original_names(folder_path):
"""
批量将文件名恢复为原来的名称,需要在修改文件名之前备份原来的名称
:param folder_path: 文件夹路径
"""
for filename in os.listdir(folder_path):
full_path = os.path.join(folder_path, filename)
if os.path.isfile(full_path):
# 获取备份的文件名
backup_filename = os.path.splitext(filename)[0] + ".bak"
backup_full_path = os.path.join(folder_path, backup_filename)
if os.path.exists(backup_full_path):
# 将备份的文件名恢复为原来的文件名
os.rename(backup_full_path, full_path)
def batch_rename_files(folder_path, random_string_length=0):
"""
批量重命名文件,名字改为该文件的创建或修改日期,如果有重名的文件,可以添加一个随机字符串
:param folder_path: 文件夹路径
:param random_string_length: 随机字符串长度,默认为0
"""
# 先将文件名备份
for filename in os.listdir(folder_path):
full_path = os.path.join(folder_path, filename)
if os.path.isfile(full_path):
# 获取文件的后缀名
file_extension = os.path.splitext(filename)[1]
# 备份原来的文件名
backup_filename = os.path.splitext(filename)[0] + ".bak"
backup_full_path = os.path.join(folder_path, backup_filename)
os.rename(full_path, backup_full_path)
# 批量重命名文件
for filename in os.listdir(folder_path):
full_path = os.path.join(folder_path, filename)
if os.path.isfile(full_path):
# 获取文件的创建时间或修改时间
timestamp = os.path.getmtime(full_path)
# 格式化时间
date_time = datetime.fromtimestamp(timestamp)
new_name = date_time.strftime("%Y-%m-%d %H-%M-%S")
# 添加随机字符串
if random_string_length > 0:
random_string = ''.join(random.choices(string.ascii_lowercase + string.digits, k=random_string_length))
new_name += '-' + random_string
# 拼接新的文件名
new_filename = new_name + file_extension
new_full_path = os.path.join(folder_path, new_filename)
# 重命名文件
os.rename(full_path, new_full_path)
# 将文件名恢复为原来的名称
restore_original_names(folder_path)
if __name__ == '__main__':
folder_path = 'your_folder_path'
batch_rename_files(folder_path, random_string_length=5)
```
这个修改后的代码首先会备份原来的文件名,然后批量重命名所有的文件,并最后将所有文件的名字恢复为原来的名称。
阅读全文