paddleocr数据集格式
时间: 2025-03-16 11:04:28 浏览: 8
PaddleOCR 支持的数据集格式
PaddleOCR 是一种强大的开源 OCR 工具包,支持多种数据集格式以满足不同的应用场景需求。以下是关于其支持的数据集格式及其具体要求的详细介绍。
1. 数据集分类
PaddleOCR 的数据集主要分为两类:检测(Detection)和识别(Recognition)。每种任务对应的数据集格式有所不同[^4]。
2. 检测任务数据集格式
对于文字检测任务,通常采用标注文件来描述图像中的文本框位置。常见的标注文件格式如下:
标注文件结构
标注文件通常是.txt
文件,每一行表示一个图片对应的标签信息。具体的格式为:图片路径 文本框坐标1 文本框坐标2 ... 文本框坐N
文本框坐标
每个文本框由一系列顶点坐标组成,一般按照顺时针顺序排列。例如:img_1.jpg 87,195,187,195,187,225,87,225 text1 100,100,200,100,200,200,100,200 text2
上述例子中,第一个文本框的四个角点分别为
(87,195), (187,195), (187,225), (87,225)
,第二个文本框则依次类推[^3]。
3. 识别任务数据集格式
针对文字识别任务,数据集中除了包含图片外还需要提供相应的字符序列作为标签。常见格式如下:
LMDB 格式 LMDB 是一种键值数据库存储方式,在 OCR 领域被广泛应用于高效读取大量小尺寸图片。可以通过工具将普通的图片目录转换成 LMDB 格式的数据库。
普通文本列表格式 如果不使用 LMDB,则可以直接准备一个纯文本列表文件,其中每一行记录了一张图片的位置以及它所代表的文字内容:
/path/to/image1.png label_for_image1 /path/to/image2.png label_for_image2 ...
4. 示例代码展示如何加载自定义数据集
下面是一个简单的 Python 脚本示例,演示了如何利用 train.py
来训练基于自定义数据集的模型[^2]:
!python tools/train.py \
-c configs/rec/chinese_rec_config.yml \
--validate \
--epoch_num=100 \
--use_gpu=True \
--pretrained_model=output/best_accuracy \
--checkpoint_dir=output/checkpoints
上述命令指定了配置文件路径、验证开关状态、总轮次数量以及其他必要参数。
相关推荐


















