PaddleOCR/doc/doc_ch/dataset/ocr_datasets.md

1.0 KiB
Raw Blame History

OCR数据集

这里整理了OCR中常用的公开数据集持续更新中欢迎各位小伙伴贡献数据集

1. 文本检测

数据集名称 图片下载地址 PPOCR标注下载地址
ICDAR 2015 https://rrc.cvc.uab.es/?ch=4&com=downloads train / test
ctw1500 https://paddleocr.bj.bcebos.com/dataset/ctw1500.zip 图片下载地址中已包含
total text https://paddleocr.bj.bcebos.com/dataset/total_text.tar 图片下载地址中已包含

2. 文本识别

数据集名称 图片下载地址 PPOCR标注下载地址
en benchmark(MJ, SJ, IIIT, SVT, IC03, IC13, IC15, SVTP, and CUTE.) DTRB LMDB格式可直接加载