PaddleOCR/ocr_datasets.md at 5a263d40906ab6b5a8189fcad1a3a6b2fabfcdae

mirrors/PaddleOCR

Fork 0

mirror of https://github.com/PaddlePaddle/PaddleOCR.git synced 2025-06-03 21:53:39 +08:00

WenmuZhou 5a263d4090 update dataset

2022-04-27 14:04:18 +08:00

2.9 KiB

Raw Blame History

OCR数据集

1. 文本检测
- 1.1 ICDAR 2015
2. 文本识别

这里整理了OCR中常用的公开数据集，持续更新中，欢迎各位小伙伴贡献数据集～

1. 文本检测

数据集名称	图片下载地址	PPOCR标注下载地址
ICDAR 2015	https://rrc.cvc.uab.es/?ch=4&com=downloads	train / test
ctw1500	https://paddleocr.bj.bcebos.com/dataset/ctw1500.zip	图片下载地址中已包含
total text	https://paddleocr.bj.bcebos.com/dataset/total_text.tar	图片下载地址中已包含

1.1 ICDAR 2015

icdar2015 数据集包含1000张训练图像和500张测试图像。icdar2015数据集可以从上表中链接下载，首次下载需注册。注册完成登陆后，下载下图中红色框标出的部分，其中， Training Set Images下载的内容保存在icdar_c4_train_imgs文件夹下，Test Set Images 下载的内容保存早ch4_test_images文件夹下

将下载到的数据集解压到工作目录下，假设解压在 PaddleOCR/train_data/下。然后从上表中下载转换好的标注文件。

PaddleOCR 也提供了数据格式转换脚本，可以将官网 label 转换支持的数据格式。数据转换工具在 ppocr/utils/gen_label.py, 这里以训练集为例：

# 将官网下载的标签文件转换为 train_icdar2015_label.txt
python gen_label.py --mode="det" --root_path="/path/to/icdar_c4_train_imgs/"  \
                    --input_path="/path/to/ch4_training_localization_transcription_gt" \
                    --output_label="/path/to/train_icdar2015_label.txt"

解压数据集和下载标注文件后，PaddleOCR/train_data/ 有两个文件夹和两个文件，按照如下方式组织icdar2015数据集：

/PaddleOCR/train_data/icdar2015/text_localization/
  └─ icdar_c4_train_imgs/         icdar 2015 数据集的训练数据
  └─ ch4_test_images/             icdar 2015 数据集的测试数据
  └─ train_icdar2015_label.txt    icdar 2015 数据集的训练标注
  └─ test_icdar2015_label.txt     icdar 2015 数据集的测试标注

2. 文本识别

数据集名称	图片下载地址	PPOCR标注下载地址
en benchmark(MJ, SJ, IIIT, SVT, IC03, IC13, IC15, SVTP, and CUTE.)	DTRB	LMDB格式，可直接用lmdb_dataset.py加载

2.9 KiB Raw Blame History Unescape Escape

OCR数据集

1. 文本检测

1.1 ICDAR 2015

2. 文本识别

2.9 KiB

Raw Blame History