YOLOv3数据预处理深度解析：COCO数据集与自定义数据集处理

93 浏览量更新于2024-08-28 收藏 92KB PDF 举报

"该资源是关于使用PyTorch实现YOLOv3的第三部分，主要讲解数据集处理的细节，包括COCO数据集的读取和自定义数据集的预处理方法。" 在YOLOv3的实现过程中，数据预处理是一个关键步骤，因为模型对输入图像的尺寸有特定要求。YOLOv3规定输入图像必须是416x416像素大小。为了确保训练效果，避免直接缩放图像导致的信息丢失，YOLOv3采取了一套复杂的预处理流程。首先，图像的高度和宽度被调整到相等，然后通过上采样进行resize操作，以保持纵横比不变。接着，图像的标注框（labels）的坐标也需要相应调整。此外，为了增加模型的泛化能力，预处理还包括随机水平翻转图像以及随机改变图像大小，最后再将图像调整到416x416的尺寸作为模型输入。在提供的代码段中，`classListDataset` 类是一个自定义的PyTorch `Dataset`，用于处理YOLOv3的数据集。这个类初始化时，它会读取一个包含图像路径的列表文件，并根据图像路径生成对应的标签文件路径。`img_size` 参数用于设置目标输入尺寸，默认为416。`augment` 参数控制是否启用数据增强，`multiscale` 参数用于多尺度训练，`normalized_labels` 控制标签是否归一化。`__getitem__` 方法是PyTorch `Dataset` 的核心方法，用于获取索引指定的数据样本，包括图像和对应的标签文件。预处理流程包括： 1. 根据索引读取图像文件路径。 2. 对图像进行预处理，包括尺寸调整、数据增强（如水平翻转、随机大小变化）等。 3. 处理对应的标签文件，更新标注框的坐标，以匹配图像预处理后的变化。 4. 返回处理后的图像和标签。整个预处理过程旨在确保模型在训练时能够有效地学习，并且能够在不同尺寸和方向的图像上表现出良好的泛化能力。这对于目标检测任务至关重要，因为实际应用场景中的图像尺寸和方向是多变的。

pytorch 实现实现yolo3详细理解（三）详细理解（三）数据集处理数据集处理

本章详细讲解数据的处理问题，将coco数据集读取，以及之后自定义数据集的处理，

数据预处理思想数据预处理思想

yolo3的数据集处理也是一大亮点，由于yolo3对数据集的输入有要求，指定的照片输入大小必须是416，所有对于不满足照片

的大小有一系列的操作，如果直接resize操作，将直接损失照片信息，网络在学习分类的过程还要适应照片尺寸的问题，导致

训练效果不佳，在yolo3中是先进行高和宽的调整一样大，在进行上采样的resize，同时要修改label的坐标位置，随机水平翻

转，再一次随机变化大小，之后再变化到416的大小尺寸作为输入。

代码代码

class ListDataset(Dataset): #继承Dataset

def __init__(self, list_path, img_size=416, augment=True, multiscale=True, normalized_labels=True):

with open(list_path, "r") as file:

self.img_files = file.readlines()

self.label_files = [

path.replace("images", "labels").replace(".png", ".txt").replace(".jpg", ".txt") #这一步是生成labels的位置

for path in self.img_files

] self.img_size = img_size

self.max_objects = 100

self.augment = augment

self.multiscale = multiscale

self.normalized_labels = normalized_labels

self.min_size = self.img_size - 3 * 32

self.max_size = self.img_size + 3 * 32

self.batch_count = 0

def __getitem__(self, index):

# ---------

# Image

# ---------

img_path = self.img_files[index % len(self.img_files)].rstrip() #按照索引的方式找到对应的路径

# Extract image as PyTorch tensor

img = transforms.ToTensor()(Image.open(img_path).convert('RGB')) #读取照片

# Handle images with less than three channels

if len(img.shape) != 3:

img = img.unsqueeze(0)

img = img.expand((3, img.shape[1:]))

_, h, w = img.shape

h_factor, w_factor = (h, w) if self.normalized_labels else (1, 1) #直接理解为照片的宽度和高度

# Pad to square resolution

img, pad = pad_to_square(img, 0) #这一步就是将高和宽变成一样大小

_, padded_h, padded_w = img.shape

# ---------

# Label

# ---------

label_path = self.label_files[index % len(self.img_files)].rstrip() #照片对应的label路径

targets = None

if os.path.exists(label_path):

boxes = torch.from_numpy(np.loadtxt(label_path).reshape(-1, 5))

# Extract coordinates for unpadded + unscaled image

x1 = w_factor * (boxes[:, 1] - boxes[:, 3] / 2) #label的坐标点位置是xywh所以先进行转化

y1 = h_factor * (boxes[:, 2] - boxes[:, 4] / 2)

x2 = w_factor * (boxes[:, 1] + boxes[:, 3] / 2)

y2 = h_factor * (boxes[:, 2] + boxes[:, 4] / 2)

# Adjust for added padding

x1 += pad[0] #照片大小变化了所以框的坐标点需要修改

y1 += pad[2] x2 += pad[1] y2 += pad[3] # Returns (x, y, w, h)

boxes[:, 1] = ((x1 + x2) / 2) / padded_w #在次重新转化xywh形式

boxes[:, 2] = ((y1 + y2) / 2) / padded_h

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38733414

粉丝: 11
资源: 987

YOLOv3数据预处理深度解析：COCO数据集与自定义数据集处理

PyTorch实现YOLO目标检测算法教程

Pytorch实现YOLO深度学习项目

Pytorch_YOLO v4数据集训练全攻略及源代码下载

pytorch 实现yolo3详细理解（五）训练自己数据集和csv数据集标签处理

pytorch 实现yolo3详细理解（四） 测试和训练

一步步理解基于pytorch实现yolo-v3过程.zip

基于Pytorch的YOLO实现.zip

yolo3 pytorch实现

基于Pytorch的YOLO-v3-tiny实现代码

基于pytorch的yolo_v1

最新资源

pytorch 实现yolo3详细理解（四）测试和训练