PaddleOCR/docs/datasets/table_datasets.md
SWHL 0529e2303e
docs: Add a new document site (#13375)
* docs: Add a new document site

* docs: Update comment setting

* chore(pre-commit): Remove rules of md and remove the size limits of 512kb

* chore(format): Run pre-commit in local

* ci(document): Change the default name of building document site.

* chore: Update .pre-commit-config.yaml
2024-07-24 20:00:15 +08:00

1.8 KiB
Raw Blame History

comments, typora-copy-images-to
comments typora-copy-images-to
true images

表格识别数据集

这里整理了常用表格识别数据集,持续更新中,欢迎各位小伙伴贡献数据集~

数据集汇总

数据集名称 图片下载地址 PPOCR标注下载地址
PubTabNet https://github.com/ibm-aur-nlp/PubTabNet jsonl格式可直接用pubtab_dataset.py加载
好未来表格识别竞赛数据集 https://ai.100tal.com/dataset jsonl格式可直接用pubtab_dataset.py加载
WTW中文场景表格数据集 https://github.com/wangwen-whu/WTW-Dataset 需要进行转换后才能用pubtab_dataset.py加载

1. PubTabNet数据集

  • 数据简介PubTabNet数据集的训练集合中包含50万张图像验证集合中包含0.9万张图像。部分图像可视化如下所示。

2. 好未来表格识别竞赛数据集

  • 数据简介好未来表格识别竞赛数据集的训练集合中包含1.6万张图像。验证集未给出可训练的标注。

3. WTW中文场景表格数据集

  • 数据简介WTW中文场景表格数据集包含表格检测和表格数据两部分数据数据集中同时包含扫描和拍照两张场景的图像。

    img