import os import random from tqdm import tqdm # 指定 images 文件夹路径 image_dir = "C:/Users/86152/Desktop/coco128/images/train2017" # 指定 labels 文件夹路径 label_dir = "C:/Users/86152/Desktop/coco128/labels/train2017" # 创建一个空列表来存储有效图片的路径 valid_images = [] # 创建一个空列表来存储有效 label 的路径 valid_labels = [] # 遍历 images 文件夹下的所有图片 for image_name in os.listdir(image_dir): # 获取图片的完整路径 image_path = os.path.join(image_dir, image_name) # 获取图片文件的扩展名 ext = os.path.splitext(image_name)[-1] # 根据扩展名替换成对应的 label 文件名 label_name = image_name.replace(ext, ".txt") # 获取对应 label 的完整路径 label_path = os.path.join(label_dir, label_name) # 判断 label 是否存在 if not os.path.exists(label_path): # 删除图片 os.remove(image_path) print("deleted:", image_path) else: # 将图片路径添加到列表中 valid_images.append(image_path) # 将label路径添加到列表中 valid_labels.append(label_path) # print("valid:", image_path, label_path) # 遍历每个有效图片路径 for i in tqdm(range(len(valid_images))): image_path = valid_images[i] label_path = valid_labels[i] # 随机生成一个概率 r = random.random() # 判断图片应该移动到哪个文件夹 # train:valid:test = 7:2:1 if r < 0.1: # 移动到 test 文件夹 destination = "C:/Users/86152/PycharmProjects/pythonProject/ultralytics-main/datasets/test" elif r < 0.2: # 移动到 valid 文件夹 destination = "C:/Users/86152/PycharmProjects/pythonProject/ultralytics-main/datasets/valid" else: # 移动到 train 文件夹 destination = "C:/Users/86152/PycharmProjects/pythonProject/ultralytics-main/datasets/train" # 生成目标文件夹中图片的新路径 image_destination_path = os.path.join(destination, "images", os.path.basename(image_path)) # 移动图片到目标文件夹 os.rename(image_path, image_destination_path) # 生成目标文件夹中 label 的新路径 label_destination_path = os.path.join(destination, "labels", os.path.basename(label_path)) # 移动 label 到目标文件夹 os.rename(label_path, label_destination_path) print("valid images:", valid_images) #输出有效label路径列表 print("valid labels:", valid_labels)
时间: 2024-04-28 16:18:46 浏览: 11
这段代码主要是在处理 COCO 数据集中的图片和标签文件。通过遍历 images 文件夹下的所有图片,获取图片的完整路径和扩展名,根据扩展名替换成对应的 label 文件名,获取对应 label 的完整路径。然后判断 label 是否存在,如果不存在就删除对应的图片。如果存在,就将图片路径和 label 路径添加到 valid_images 和 valid_labels 列表中。
然后通过遍历每个有效图片路径,随机生成一个概率,判断图片应该移动到哪个文件夹(train/valid/test)。最后生成目标文件夹中图片的新路径和 label 的新路径,移动图片和 label 到目标文件夹中。
最后输出有效图片路径列表和有效标签路径列表。
相关问题
data = load_data( data_dir="F://diffuse_model_ptcg//picture//test", batch_size=4, image_size=128, class_cond=False, )查看batch
要查看batch,你需要先使用数据加载器加载数据,然后从加载器中获取一个batch。假设你使用的是PyTorch的DataLoader,可以按照以下步骤进行操作:
1. 在代码中导入必要的库:
```
import torch.utils.data as data
import torchvision.datasets as datasets
import torchvision.transforms as transforms
```
2. 定义数据加载器并加载数据:
```
transform = transforms.Compose([
transforms.Resize(128),
transforms.CenterCrop(128),
transforms.ToTensor(),
])
dataset = datasets.ImageFolder("F://diffuse_model_ptcg//picture//test", transform=transform)
dataloader = data.DataLoader(dataset, batch_size=4, shuffle=True)
```
3. 获取一个batch并查看batch的形状:
```
for images, labels in dataloader:
print(images.shape) # 输出为torch.Size([4, 3, 128, 128])
break # 只查看第一个batch
```
注意,这里假设数据集中的图像是RGB格式,因此图像的通道数为3。如果你的图像是灰度图像,则通道数为1。另外,如果你设置了`class_cond=True`,则还需要获取标签信息。
import os import re from bs4 import BeautifulSoup # 指定文件夹路径 folder_path = "C:/Users/test/Desktop/DIDItest" # 遍历文件夹中的所有文件 for root, dirs, files in os.walk(folder_path): for file in files: # 读取html文件 file_path = os.path.join(root, file) with open(file_path, "r", encoding="utf-8") as f: html_code = f.read() # 创建BeautifulSoup对象 soup = BeautifulSoup(html_code, 'html.parser')提取发送或发言的字符串
根据你提供的代码,你想遍历指定文件中的所有 HTML 文件,并使用 BeautifulSoup 提取其中包含 "发送" 或 "发言" 的字符串。
你可以使用 BeautifulSoup 的 `find_all()` 方法结合正则表达式来匹配包含特定字符串的文本内容。下面是一个示例代码,展示了如何修改你的代码来实现这一目标:
```python
import os
import re
from bs4 import BeautifulSoup
# 指定文件夹路径
folder_path = "C:/Users/test/Desktop/DIDItest"
# 遍历文件夹中的所有文件
for root, dirs, files in os.walk(folder_path):
for file in files:
# 读取html文件
file_path = os.path.join(root, file)
with open(file_path, "r", encoding="utf-8") as f:
html_code = f.read()
# 创建BeautifulSoup对象
soup = BeautifulSoup(html_code, 'html.parser')
# 使用正则表达式匹配包含 "发送" 或 "发言" 的文本内容
pattern = re.compile("(发送|发言)")
matched_strings = soup.find_all(text=pattern)
# 打印匹配到的字符串
for string in matched_strings:
print(string)
```
在上面的代码中,我们使用正则表达式 `(发送|发言)` 来匹配包含 "发送" 或 "发言" 的文本内容。然后,我们使用 `find_all()` 方法根据这个正则表达式模式找到所有匹配的结果,并将它们存储在 `matched_strings` 列表中。最后,我们遍历这个列表并打印出每个匹配到的字符串。
请注意,在使用正则表达式时,确保你的模式与实际文本内容匹配。如果没有找到匹配的结果,`matched_strings` 列表将是一个空列表。
希望这可以满足你的需求!如果你还有其他问题,请随时提问。