[Config] Update base dataset configs (#1190)

2022-07-23 21:25:15 +08:00 · 2022-07-23 21:25:15 +08:00 · abb6c16095
parent ca01ee5eb3
commit abb6c16095
6 changed files with 36 additions and 56 deletions
--- a/configs/_base_/recog_datasets/MJ_train.py
+++ b/configs/_base_/recog_datasets/MJ_train.py
@ -1,14 +1,12 @@
 # Text Recognition Training set, including:
 # Synthetic Datasets: Syn90k
-data_root = 'data/rec'
-train_img_prefix1 = 'Syn90k/mnt/ramdisk/max/90kDICT32px'
-train_ann_file1 = 'Syn90k/label.json'

 mj_rec_train = dict(
    type='OCRDataset',
-    data_root=data_root,
-    data_prefix=dict(img_path=train_img_prefix1),
-    ann_file=train_ann_file1,
+    data_root='data/rec',
+    data_prefix=dict(img_path='Syn90k/mnt/ramdisk/max/90kDICT32px'),
+    ann_file='Syn90k/train_labels.json',
    test_mode=False,
    pipeline=None)
+
 train_list = [mj_rec_train]
--- a/configs/_base_/recog_datasets/ST_MJ_alphanumeric_train.py
+++ b/configs/_base_/recog_datasets/ST_MJ_alphanumeric_train.py
@ -3,25 +3,21 @@
 # Both annotations are filtered so that
 # only alphanumeric terms are left
 data_root = 'data/rec'
-train_img_prefix1 = 'Syn90k/mnt/ramdisk/max/90kDICT32px'
-train_ann_file1 = 'Syn90k/label.json'

 mj_rec_train = dict(
    type='OCRDataset',
    data_root=data_root,
-    data_prefix=dict(img_path=train_img_prefix1),
-    ann_file=train_ann_file1,
+    data_prefix=dict(img_path='Syn90k/mnt/ramdisk/max/90kDICT32px'),
+    ann_file='Syn90k/train_labels.json',
    test_mode=False,
    pipeline=None)

-train_img_prefix2 = 'SynthText/synthtext/SynthText_patch_horizontal'
-train_ann_file2 = 'SynthText/alphanumeric_label.json'
-
 st_rec_train = dict(
    type='OCRDataset',
    data_root=data_root,
-    data_prefix=dict(img_path=train_img_prefix2),
-    ann_file=train_ann_file2,
+    data_prefix=dict(
+        img_path='SynthText/synthtext/SynthText_patch_horizontal'),
+    ann_file='SynthText/alphanumeric_train_labels.json',
    test_mode=False,
    pipeline=None)

--- a/configs/_base_/recog_datasets/ST_MJ_train.py
+++ b/configs/_base_/recog_datasets/ST_MJ_train.py
@ -3,26 +3,20 @@

 data_root = 'data/rec'

-train_img_prefix1 = 'Syn90k/mnt/ramdisk/max/90kDICT32px'
-train_ann_file1 = 'Syn90k/label.json'
-file_client_args = dict(backend='disk')
-
 mj_rec_train = dict(
    type='OCRDataset',
    data_root=data_root,
-    data_prefix=dict(img_path=train_img_prefix1),
-    ann_file=train_ann_file1,
+    data_prefix=dict(img_path='Syn90k/mnt/ramdisk/max/90kDICT32px'),
+    ann_file='Syn90k/train_labels.json',
    test_mode=False,
    pipeline=None)

-train_img_prefix2 = 'SynthText/synthtext/SynthText_patch_horizontal'
-train_ann_file2 = 'SynthText/label.json'
-
 st_rec_train = dict(
    type='OCRDataset',
    data_root=data_root,
-    data_prefix=dict(img_path=train_img_prefix2),
-    ann_file=train_ann_file2,
+    data_prefix=dict(
+        img_path='SynthText/synthtext/SynthText_patch_horizontal'),
+    ann_file='SynthText/train_labels.json',
    test_mode=False,
    pipeline=None)

--- a/configs/_base_/recog_datasets/ST_SA_MJ_real_train.py
+++ b/configs/_base_/recog_datasets/ST_SA_MJ_real_train.py
@ -8,18 +8,18 @@ train_img_prefix2 = 'icdar_2013'
 train_img_prefix3 = 'icdar_2015'
 train_img_prefix4 = 'coco_text'
 train_img_prefix5 = 'IIIT5K'
-train_img_prefix6 = 'SynthText_Add'
+train_img_prefix6 = 'synthtext_add'
 train_img_prefix7 = 'SynthText/synthtext/SynthText_patch_horizontal'
 train_img_prefix8 = 'Syn90k/mnt/ramdisk/max/90kDICT32px'

-train_ann_file1 = 'icdar_2011/train_label.json',
-train_ann_file2 = 'icdar_2013/train_label.json',
-train_ann_file3 = 'icdar_2015/train_label.json',
-train_ann_file4 = 'coco_text/train_label.json',
-train_ann_file5 = 'IIIT5K/train_label.json',
-train_ann_file6 = 'SynthText_Add/train_label.json',
-train_ann_file7 = 'SynthText/shuffle_label.json',
-train_ann_file8 = 'Syn90k/mnt/ramdisk/max/90kDICT32px/shuffle_label.json'
+train_ann_file1 = 'icdar_2011/train_labels.json',
+train_ann_file2 = 'icdar_2013/train_labels.json',
+train_ann_file3 = 'icdar_2015/train_labels.json',
+train_ann_file4 = 'coco_text_v1/train_labels.json',
+train_ann_file5 = 'IIIT5K/train_labels.json',
+train_ann_file6 = 'synthtext_add/train_labels.json',
+train_ann_file7 = 'SynthText/shuffle_train_labels.json',
+train_ann_file8 = 'Syn90k/shuffle_train_labels.json'

 ic11_rec_train = dict(
    type='OCRDataset',
--- a/configs/_base_/recog_datasets/ST_SA_MJ_train.py
+++ b/configs/_base_/recog_datasets/ST_SA_MJ_train.py
@ -1,37 +1,29 @@
 # Text Recognition Training set, including:
 # Synthetic Datasets: SynthText, Syn90k
 data_root = 'data/rec'
-train_img_prefix1 = 'Syn90k/mnt/ramdisk/max/90kDICT32px'
-train_ann_file1 = 'Syn90k/label.json'

 mj_rec_train = dict(
    type='OCRDataset',
    data_root=data_root,
-    data_prefix=dict(img_path=train_img_prefix1),
-    ann_file=train_ann_file1,
+    data_prefix=dict(img_path='Syn90k/mnt/ramdisk/max/90kDICT32px'),
+    ann_file='Syn90k/train_labels.json',
    test_mode=False,
    pipeline=None)

-train_img_prefix2 = 'SynthText/synthtext/' + \
-    'SynthText_patch_horizontal'
-train_ann_file2 = 'SynthText/label.json',
-
 st_rec_train = dict(
    type='OCRDataset',
    data_root=data_root,
-    data_prefix=dict(img_path=train_img_prefix2),
-    ann_file=train_ann_file2,
+    data_prefix=dict(
+        img_path='SynthText/synthtext/SynthText_patch_horizontal'),
+    ann_file='SynthText/train_labels.json',
    test_mode=False,
    pipeline=None)

-train_img_prefix3 = 'SynthText_Add'
-train_ann_file3 = 'SynthText_Add/label.json'
-
 st_add_rec_train = dict(
    type='OCRDataset',
    data_root=data_root,
-    data_prefix=dict(img_path=train_img_prefix3),
-    ann_file=train_ann_file3,
+    data_prefix=dict(img_path='synthtext_add'),
+    ann_file='synthtext_add/train_labels.json',
    test_mode=False,
    pipeline=None)

--- a/configs/_base_/recog_datasets/academic_test.py
+++ b/configs/_base_/recog_datasets/academic_test.py
@ -11,12 +11,12 @@ test_img_prefix4 = 'icdar_2015/ch4_test_word_images_gt'
 test_img_prefix5 = 'svtp/'
 test_img_prefix6 = 'ct80/'

-test_ann_file1 = 'IIIT5K/test_label.json'
-test_ann_file2 = 'svt/test_label.json'
-test_ann_file3 = 'icdar_2013/test_label.json'
-test_ann_file4 = 'icdar_2015/test_label.json'
-test_ann_file5 = 'svtp/test_label.json'
-test_ann_file6 = 'ct80/test_label.json'
+test_ann_file1 = 'IIIT5K/test_labels.json'
+test_ann_file2 = 'svt/test_labels.json'
+test_ann_file3 = 'icdar_2013/test_labels.json'
+test_ann_file4 = 'icdar_2015/test_labels.json'
+test_ann_file5 = 'svtp/test_labels.json'
+test_ann_file6 = 'ct80/test_labels.json'

 iiit5k_rec_test = dict(
    type='OCRDataset',