VOC数据集转换实例：目标检测任务必备步骤

120 浏览量更新于2024-08-30 收藏 52KB PDF 举报

在进行目标检测任务时，特别是在利用GitHub上已开源的代码复现论文时，了解并掌握如何将自定义数据集转换为VOC（Visual Object Classes）数据集格式至关重要。VOC数据集是目标检测领域常用的基准数据集，例如VOC 2007和VOC 2012，以及COCO等，它们的结构包含多个子目录和特定的文件命名规则。 VOC数据集的主要结构如下： 1. VOCdevkit2007：这是VOC数据集的根目录，包含了所有必要的子目录和文件。 2. Annotations：存放XML格式的标注文件，每个图像对应一个XML文件，记录了目标的位置和类别信息。 - 如：000001.xml 3. ImageSets：包含不同的图像集合，如train.txt、test.txt、val.txt和trainval.txt，用于指定哪些图像用于训练、测试或验证。 4. JPEGImages：存储实际的JPEG格式图片，与对应的XML文件对应。 - 如：000001.jpg 5. Segmentation：虽然不是所有VOC版本都有，但这里通常用于实例分割任务，不涉及目标检测。 6. results：用于存放模型预测结果的目录，但在创建自定义数据集时，这一步通常不存在。转换过程步骤分为两步： 1. 使用专门的标注工具（如LabelImg）对图片进行目标检测框标注，并生成JSON格式的标注文件。这些文件记录了每个对象的边界框坐标、类别等信息。 2. 批量重命名图片和标注文件，确保它们与VOC数据集的命名规则一致。在这个过程中，你需要： - 从000001开始对图片和标注文件编号，例如： ```python def imgs_rename(imgs_path): ... for img_label_name in imgs_labels_name: if img_label_name[0].endswith('.jpg'): # 修改图片名称 img_old_name = ... img_new_name = os.path.join(os.path.abspath(imgs_path), '00' + format(str(i), '0>4s') + '.jpg') os.rename(img_old_name, img_new_name) # 修改json文件名称 label_old_name = ... label_new_name = ... ``` 这段代码通过循环遍历图片和标注文件，检查图片扩展名，然后按照格式规则（'000001.jpg'到'000099.jpg'等）重命名文件。完成以上步骤后，你的数据集就符合了VOC数据集的结构，可以被目标检测算法所接受，便于后续的训练、评估和模型比较。注意，对于VOC 2007和VOC 2012，可能还需要根据官方的数据划分进行相应的数据切分，确保训练、验证和测试集的正确划分。

将数据集制作成将数据集制作成VOC数据集格式的实例数据集格式的实例

在做目标检测任务时，若使用Github已复现的论文时，需首先将自己的数据集转化为VOC数据集的格式，因为论文作者使用

的是公开数据集VOC 2007、VOC2012、COCO等类型数据集做方法验证与比对。

一、一、VOC数据集格式数据集格式

–VOCdevkit2007

–VOC2007

–Annotations (xml格式的文件)

–000001.xml

–ImageSets

–Layout

–Main

–train.txt

–test.txt

–val.txt

–trainval.txt

–Segmentation

–JPEGImages (训练集和测试集图片)

–000001.jpg

–results

二、转换过程步骤二、转换过程步骤

1. 使用标注工具标注图片目标检测框，生成JSON格式的标注文件(本人使用此生成类型的标注工具，也可使用(LabelImg等标

注工具)；

2. 批量修改图片和标注文件名称，从000001.jpg、000001.json标号开始；

#coding='utf-8'

import os

import numpy as np

def imgs_rename(imgs_path):

imgs_labels_name = np.array(os.listdir(imgs_path)).reshape(-1,2)

# 从 000001开始

i = 1

for img_label_name in imgs_labels_name:

if img_label_name[0].endswith('.jpg'):

# 修改图片名称

img_old_name = os.path.join(os.path.abspath(imgs_path), img_label_name[0])

# 类别+图片编号 format(str(i),'0>3s') 填充对齐

img_new_name = os.path.join(os.path.abspath(imgs_path), '00' + format(str(i),'0>4s') + '.jpg')

os.rename(img_old_name, img_new_name)

# 修改json文件名称

label_old_name = os.path.join(os.path.abspath(imgs_path), img_label_name[1])

label_new_name = os.path.join(os.path.abspath(imgs_path), '00' + format(str(i), '0>4s') + '.json')

os.rename(label_old_name, label_new_name)

i = i + 1

if __name__=='__main__':

# 读取json文件的路径

root = "read_file_path"

imgs_rename(root)

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38745891

粉丝: 4
资源: 1000

VOC数据集转换实例：目标检测任务必备步骤

使用resnet FCN训练VOC2007 数据集语义分割

学习制作minist数据集小工具

目标检测数据集大白菜数据集VOC格式-1557张

如何利用代码将VOC格式语义分割数据集怎么转化为实例分割数据集

voc数据集格式和coco数据集格式有何异同

pascal voc数据集制作

voc数据集的实例分割数据集格式

2017voc格式人员数据集图片

voc数据集和coco数据集区别

voc数据集 coco xml

最新资源