請你幫我修改代碼,我需要將抓取到的txt文檔,進行數據清洗。履歷第一行和第三行都是重複的對其行進行刪除import os import datetime import time # 原文件夹路径和目标文件夹路径 src_path = r"Z:\看板v2" dst_path = "D:\測試log" while True: # 获取今天日期,并格式化成指定的形式 today = datetime.date.today() formatted_today = today.strftime("%Y%m%d") # 构造目标文件的完整路径 dst_file = os.path.join(dst_path, f"當天測試log.txt") # 记录程序开始运行时间 start_time = time.time() # 遍历原文件夹,查找当天日期的 TXT 文件 txt_files = [] for root, dirs, files in os.walk(src_path): for file in files: if file.endswith(".txt") and file.startswith(formatted_today): txt_files.append(os.path.join(root, file)) # 如果找到符合条件的 TXT 文件,则将它们合并到目标文件中 if len(txt_files) > 0: with open(dst_file, "w", encoding="utf-8") as f: for src_file in txt_files: # 读取 TXT 文件的内容,并写入目标文件中 with open(src_file, "r", encoding="utf-8") as txt_file: content = txt_file.read() f.write(content) print(f"{len(txt_files)} 个符合条件的 TXT 文件已成功合并到目标文件 當天測試log.txt 中!") else: print("未找到符合条件的 TXT 文件!") # 计算程序运行时间 end_time = time.time() run_time = end_time - start_time now = datetime.datetime.now() # 输出程序运行时间 print(f"程序运行时间:{run_time:.2f} 秒 {now.strftime('%Y-%m-%d %H:%M:%S')}") # 暂停15秒钟 time.sleep(15)
时间: 2024-02-24 11:53:46 浏览: 139
使用 Python 进行网页抓取:从现代 Web 中提取数据,第三版
好的,以下是修改后的完成数据清洗的Python代码:
```python
import os
import datetime
# 原文件夹路径和目标文件夹路径
src_path = r"Z:\看板v2"
dst_path = "D:\測試log"
while True:
# 获取今天日期,并格式化成指定的形式
today = datetime.date.today()
formatted_today = today.strftime("%Y%m%d")
# 构造目标文件的完整路径
dst_file = os.path.join(dst_path, f"當天測試log.txt")
# 记录程序开始运行时间
start_time = time.time()
# 遍历原文件夹,查找当天日期的 TXT 文件
txt_files = []
for root, dirs, files in os.walk(src_path):
for file in files:
if file.endswith(".txt") and file.startswith(formatted_today):
txt_files.append(os.path.join(root, file))
# 如果找到符合条件的 TXT 文件,则将它们合并到目标文件中
if len(txt_files) > 0:
with open(dst_file, "w", encoding="utf-8") as f:
for src_file in txt_files:
# 读取 TXT 文件的内容
with open(src_file, "r", encoding="utf-8") as txt_file:
content = txt_file.readlines()
# 删除第一行和第三行
del content[0]
del content[2]
# 将处理后的内容写入目标文件中
f.writelines(content)
print(f"{len(txt_files)} 个符合条件的 TXT 文件已成功合并到目标文件 當天測試log.txt 中!")
else:
print("未找到符合条件的 TXT 文件!")
# 计算程序运行时间
end_time = time.time()
run_time = end_time - start_time
now = datetime.datetime.now()
# 输出程序运行时间
print(f"程序运行时间:{run_time:.2f} 秒 {now.strftime('%Y-%m-%d %H:%M:%S')}")
# 暂停15秒钟
time.sleep(15)
```
这个代码会遍历指定文件夹下的所有 TXT 文件,并将当天日期的 TXT 文件合并到目标文件中。在合并之前,会先删除源文件中的第一行和第三行,然后再将处理后的内容写入目标文件中。
阅读全文