常用文本检测数据集及大小,还有它们的下载地址
时间: 2024-06-11 17:04:07 浏览: 19
以下是一些常用的文本检测数据集及其大小和下载地址:
1. ICDAR 2015 (1 GB):该数据集包含1500个图像,其中1000个用于训练,500个用于测试。它是一个多语言文本检测数据集,包括英语、阿拉伯语和日语等。下载地址:http://rrc.cvc.uab.es/?ch=4&com=downloads
2. COCO-Text (1.6 GB):这个数据集包含63,686个图像,其中43,686个用于训练,20,000个用于测试。它是一个多语言文本检测数据集,包括英语、德语、法语、意大利语、西班牙语等。下载地址:https://vision.cornell.edu/se3/coco-text-2/
3. SynthText (11 GB):这个数据集包含800,000个合成图像和8,000个真实图像,用于训练和测试文本检测算法。下载地址:http://www.robots.ox.ac.uk/~vgg/data/scenetext/
4. Total-Text (1.3 GB):该数据集包含1555个图像,其中1255个用于训练,300个用于测试。它是一个多语言文本检测数据集,包括英语、汉语、日语等。下载地址:https://github.com/cs-chan/Total-Text-Dataset
5. MLT (3 GB):这个数据集包含10,000个图像,用于多语言OCR识别任务。它是一个多语言文本检测数据集,包括英语、中文、日语、韩语等。下载地址:https://www.iapr-tc11.org/mediawiki/index.php/ICDAR_2017_MLT_Task_2:_Multilingual_Text_Detection_for_Every_Day_Scenes
以上数据集可以在其官方网站进行下载。