[TODO] Updata det_datasets & recog_datasets

2022-07-15 11:51:55 +00:00 · 2022-07-15 11:51:55 +00:00 · dc180443b8
parent 254dbdd18a
commit dc180443b8
37 changed files with 524 additions and 804 deletions
--- a/configs/_base_/det_datasets/ctw1500.py
+++ b/configs/_base_/det_datasets/ctw1500.py
@ -1,18 +1,23 @@
-dataset_type = 'IcdarDataset'
-data_root = 'data/ctw1500'
+data_root = 'data/det/ctw1500'

-train = dict(
-    type=dataset_type,
-    ann_file=f'{data_root}/instances_training.json',
-    img_prefix=f'{data_root}/imgs',
+train_anno_path = 'instances_training.json'
+test_anno_path = 'instances_test.json'
+
+train_dataset = dict(
+    type='OCRDataset',
+    data_root=data_root,
+    ann_file=train_anno_path,
+    data_prefix=dict(img_path='imgs/'),
+    filter_cfg=dict(filter_empty_gt=True, min_size=32),
    pipeline=None)

-test = dict(
-    type=dataset_type,
-    ann_file=f'{data_root}/instances_test.json',
-    img_prefix=f'{data_root}/imgs',
+test_dataset = dict(
+    type='OCRDataset',
+    data_root=data_root,
+    ann_file=test_anno_path,
+    data_prefix=dict(img_path='imgs/'),
+    test_mode=True,
    pipeline=None)

-train_list = [train]
-
-test_list = [test]
+train_list = [train_dataset]
+test_list = [test_dataset]
--- a/configs/_base_/det_datasets/icdar2015.py
+++ b/configs/_base_/det_datasets/icdar2015.py
@ -1,18 +1,23 @@
-dataset_type = 'IcdarDataset'
-data_root = 'data/icdar2015'
+data_root = 'data/det/icdar2015'

-train = dict(
-    type=dataset_type,
-    ann_file=f'{data_root}/instances_training.json',
-    img_prefix=f'{data_root}/imgs',
+train_anno_path = 'instances_training.json'
+test_anno_path = 'instances_test.json'
+
+train_dataset = dict(
+    type='OCRDataset',
+    data_root=data_root,
+    ann_file=train_anno_path,
+    data_prefix=dict(img_path='imgs/'),
+    filter_cfg=dict(filter_empty_gt=True, min_size=32),
    pipeline=None)

-test = dict(
-    type=dataset_type,
-    ann_file=f'{data_root}/instances_test.json',
-    img_prefix=f'{data_root}/imgs',
+test_dataset = dict(
+    type='OCRDataset',
+    data_root=data_root,
+    ann_file=test_anno_path,
+    data_prefix=dict(img_path='imgs/'),
+    test_mode=True,
    pipeline=None)

-train_list = [train]
-
-test_list = [test]
+train_list = [train_dataset]
+test_list = [test_dataset]
--- a/configs/_base_/det_datasets/icdar2017.py
+++ b/configs/_base_/det_datasets/icdar2017.py
@ -1,18 +1,23 @@
-dataset_type = 'IcdarDataset'
-data_root = 'data/icdar2017'
+data_root = 'data/det/icdar2017'

-train = dict(
-    type=dataset_type,
-    ann_file=f'{data_root}/instances_training.json',
-    img_prefix=f'{data_root}/imgs',
+train_anno_path = 'instances_training.json'
+test_anno_path = 'instances_test.json'
+
+train_dataset = dict(
+    type='OCRDataset',
+    data_root=data_root,
+    ann_file=train_anno_path,
+    data_prefix=dict(img_path='imgs/'),
+    filter_cfg=dict(filter_empty_gt=True, min_size=32),
    pipeline=None)

-test = dict(
-    type=dataset_type,
-    ann_file=f'{data_root}/instances_val.json',
-    img_prefix=f'{data_root}/imgs',
+test_dataset = dict(
+    type='OCRDataset',
+    data_root=data_root,
+    ann_file=test_anno_path,
+    data_prefix=dict(img_path='imgs/'),
+    test_mode=True,
    pipeline=None)

-train_list = [train]
-
-test_list = [test]
+train_list = [train_dataset]
+test_list = [test_dataset]
--- a/configs/_base_/det_datasets/synthtext.py
+++ b/configs/_base_/det_datasets/synthtext.py
@ -1,18 +1,23 @@
-dataset_type = 'TextDetDataset'
-data_root = 'data/synthtext'
+data_root = 'data/det/synthtext'

-train = dict(
-    type=dataset_type,
-    ann_file=f'{data_root}/instances_training.lmdb',
-    loader=dict(
-        type='AnnFileLoader',
-        repeat=1,
-        file_format='lmdb',
-        parser=dict(
-            type='LineJsonParser',
-            keys=['file_name', 'height', 'width', 'annotations'])),
-    img_prefix=f'{data_root}/imgs',
+train_anno_path = 'instances_training.json'
+test_anno_path = 'instances_test.json'
+
+train_dataset = dict(
+    type='OCRDataset',
+    data_root=data_root,
+    ann_file=train_anno_path,
+    data_prefix=dict(img_path='imgs/'),
+    filter_cfg=dict(filter_empty_gt=True, min_size=32),
    pipeline=None)

-train_list = [train]
-test_list = [train]
+test_dataset = dict(
+    type='OCRDataset',
+    data_root=data_root,
+    ann_file=test_anno_path,
+    data_prefix=dict(img_path='imgs/'),
+    test_mode=True,
+    pipeline=None)
+
+train_list = [train_dataset]
+test_list = [test_dataset]
--- a/configs/_base_/det_datasets/toy_data.py
+++ b/configs/_base_/det_datasets/toy_data.py
@ -1,41 +1,23 @@
-root = 'tests/data/toy_dataset'
+data_root = 'tests/data/det_toy_dataset'

-# dataset with type='TextDetDataset'
-train1 = dict(
-    type='TextDetDataset',
-    img_prefix=f'{root}/imgs',
-    ann_file=f'{root}/instances_test.txt',
-    loader=dict(
-        type='AnnFileLoader',
-        repeat=4,
-        file_format='txt',
-        parser=dict(
-            type='LineJsonParser',
-            keys=['file_name', 'height', 'width', 'annotations'])),
-    pipeline=None,
-    test_mode=False)
+train_anno_path = 'instances_test.json'
+test_anno_path = 'instances_test.json'

-# dataset with type='IcdarDataset'
-train2 = dict(
-    type='IcdarDataset',
-    ann_file=f'{root}/instances_test.json',
-    img_prefix=f'{root}/imgs',
+train_dataset = dict(
+    type='OCRDataset',
+    data_root=data_root,
+    ann_file=train_anno_path,
+    data_prefix=dict(img_path='imgs/'),
+    filter_cfg=dict(filter_empty_gt=True, min_size=32),
    pipeline=None)

-test = dict(
-    type='TextDetDataset',
-    img_prefix=f'{root}/imgs',
-    ann_file=f'{root}/instances_test.txt',
-    loader=dict(
-        type='AnnFileLoader',
-        repeat=1,
-        file_format='txt',
-        parser=dict(
-            type='LineJsonParser',
-            keys=['file_name', 'height', 'width', 'annotations'])),
-    pipeline=None,
-    test_mode=True)
+test_dataset = dict(
+    type='OCRDataset',
+    data_root=data_root,
+    ann_file=test_anno_path,
+    data_prefix=dict(img_path='imgs/'),
+    test_mode=True,
+    pipeline=None)

-train_list = [train1, train2]
-
-test_list = [test]
+train_list = [train_dataset]
+test_list = [test_dataset]
--- a/configs/_base_/recog_datasets/MJ_train.py
+++ b/configs/_base_/recog_datasets/MJ_train.py
@ -1,21 +1,15 @@
 # Text Recognition Training set, including:
 # Synthetic Datasets: Syn90k
-
-train_root = 'data/mixture/Syn90k'
-
-train_img_prefix = f'{train_root}/mnt/ramdisk/max/90kDICT32px'
-train_ann_file = f'{train_root}/label.lmdb'
+data_root = 'data/recog'
+train_img_prefix1 = 'Syn90k/mnt/ramdisk/max/90kDICT32px'
+train_ann_file1 = 'Syn90k/label.json'
+file_client_args = dict(backend='disk')

 train = dict(
    type='OCRDataset',
-    img_prefix=train_img_prefix,
-    ann_file=train_ann_file,
-    loader=dict(
-        type='AnnFileLoader',
-        repeat=1,
-        file_format='lmdb',
-        parser=dict(type='LineJsonParser', keys=['filename', 'text'])),
-    pipeline=None,
-    test_mode=False)
-
+    data_root=data_root,
+    data_prefix=dict(img_path=train_img_prefix1),
+    ann_file=train_ann_file1,
+    test_mode=False,
+    pipeline=None)
 train_list = [train]
--- a/configs/_base_/recog_datasets/ST_MJ_alphanumeric_train.py
+++ b/configs/_base_/recog_datasets/ST_MJ_alphanumeric_train.py
@ -2,30 +2,24 @@
 # Synthetic Datasets: SynthText, Syn90k
 # Both annotations are filtered so that
 # only alphanumeric terms are left
-
-train_root = 'data/mixture'
-
-train_img_prefix1 = f'{train_root}/Syn90k/mnt/ramdisk/max/90kDICT32px'
-train_ann_file1 = f'{train_root}/Syn90k/label.lmdb'
+data_root = 'data/recog'
+train_img_prefix1 = 'Syn90k/mnt/ramdisk/max/90kDICT32px'
+train_ann_file1 = 'Syn90k/label.json'
+file_client_args = dict(backend='disk')

 train1 = dict(
    type='OCRDataset',
-    img_prefix=train_img_prefix1,
+    data_root=data_root,
+    data_prefix=dict(img_path=train_img_prefix1),
    ann_file=train_ann_file1,
-    loader=dict(
-        type='AnnFileLoader',
-        repeat=1,
-        file_format='lmdb',
-        parser=dict(type='LineJsonParser', keys=['filename', 'text'])),
-    pipeline=None,
-    test_mode=False)
-
-train_img_prefix2 = f'{train_root}/SynthText/' + \
-    'synthtext/SynthText_patch_horizontal'
-train_ann_file2 = f'{train_root}/SynthText/alphanumeric_label.lmdb'
+    test_mode=False,
+    pipeline=None)

+train_img_prefix2 = 'SynthText/synthtext/SynthText_patch_horizontal'
+train_ann_file2 = 'SynthText/alphanumeric_label.json'
 train2 = {key: value for key, value in train1.items()}
-train2['img_prefix'] = train_img_prefix2
-train2['ann_file'] = train_ann_file2
+train2['data_root'] = data_root
+train2['data_prefix'] = dict(img_path=train_img_prefix2),
+train2['ann_file'] = dict(img_path=train_ann_file2),

 train_list = [train1, train2]
--- a/configs/_base_/recog_datasets/ST_MJ_train.py
+++ b/configs/_base_/recog_datasets/ST_MJ_train.py
@ -1,29 +1,25 @@
 # Text Recognition Training set, including:
 # Synthetic Datasets: SynthText, Syn90k

-train_root = 'data/mixture'
+data_root = 'data/recog'

-train_img_prefix1 = f'{train_root}/Syn90k/mnt/ramdisk/max/90kDICT32px'
-train_ann_file1 = f'{train_root}/Syn90k/label.lmdb'
+train_img_prefix1 = 'Syn90k/mnt/ramdisk/max/90kDICT32px'
+train_ann_file1 = 'Syn90k/label.json'
+file_client_args = dict(backend='disk')

 train1 = dict(
    type='OCRDataset',
-    img_prefix=train_img_prefix1,
+    data_root=data_root,
+    data_prefix=dict(img_path=train_img_prefix1),
    ann_file=train_ann_file1,
-    loader=dict(
-        type='AnnFileLoader',
-        repeat=1,
-        file_format='lmdb',
-        parser=dict(type='LineJsonParser', keys=['filename', 'text'])),
-    pipeline=None,
-    test_mode=False)
-
-train_img_prefix2 = f'{train_root}/SynthText/' + \
-    'synthtext/SynthText_patch_horizontal'
-train_ann_file2 = f'{train_root}/SynthText/label.lmdb'
+    test_mode=False,
+    pipeline=None)

+train_img_prefix2 = 'SynthText/synthtext/SynthText_patch_horizontal'
+train_ann_file2 = 'SynthText/label.json'
 train2 = {key: value for key, value in train1.items()}
-train2['img_prefix'] = train_img_prefix2
-train2['ann_file'] = train_ann_file2
+train2['data_root'] = data_root
+train2['data_prefix'] = dict(img_path=train_img_prefix2),
+train2['ann_file'] = dict(img_path=train_ann_file2),

 train_list = [train1, train2]
--- a/configs/_base_/recog_datasets/ST_SA_MJ_real_train.py
+++ b/configs/_base_/recog_datasets/ST_SA_MJ_real_train.py
@ -1,81 +1,60 @@
 # Text Recognition Training set, including:
 # Synthetic Datasets: SynthText, SynthAdd, Syn90k
 # Real Dataset: IC11, IC13, IC15, COCO-Test, IIIT5k
+data_root = 'data/recog'

-train_prefix = 'data/mixture'
+train_img_prefix1 = 'icdar_2011'
+train_img_prefix2 = 'icdar_2013'
+train_img_prefix3 = 'icdar_2015'
+train_img_prefix4 = 'coco_text'
+train_img_prefix5 = 'IIIT5K'
+train_img_prefix6 = 'SynthText_Add'
+train_img_prefix7 = 'SynthText'
+train_img_prefix8 = 'Syn90k'

-train_img_prefix1 = f'{train_prefix}/icdar_2011'
-train_img_prefix2 = f'{train_prefix}/icdar_2013'
-train_img_prefix3 = f'{train_prefix}/icdar_2015'
-train_img_prefix4 = f'{train_prefix}/coco_text'
-train_img_prefix5 = f'{train_prefix}/IIIT5K'
-train_img_prefix6 = f'{train_prefix}/SynthText_Add'
-train_img_prefix7 = f'{train_prefix}/SynthText'
-train_img_prefix8 = f'{train_prefix}/Syn90k'
-
-train_ann_file1 = f'{train_prefix}/icdar_2011/train_label.txt',
-train_ann_file2 = f'{train_prefix}/icdar_2013/train_label.txt',
-train_ann_file3 = f'{train_prefix}/icdar_2015/train_label.txt',
-train_ann_file4 = f'{train_prefix}/coco_text/train_label.txt',
-train_ann_file5 = f'{train_prefix}/IIIT5K/train_label.txt',
-train_ann_file6 = f'{train_prefix}/SynthText_Add/label.txt',
-train_ann_file7 = f'{train_prefix}/SynthText/shuffle_labels.txt',
-train_ann_file8 = f'{train_prefix}/Syn90k/shuffle_labels.txt'
+train_ann_file1 = 'icdar_2011/train_label.json',
+train_ann_file2 = 'icdar_2013/train_label.json',
+train_ann_file3 = 'icdar_2015/train_label.json',
+train_ann_file4 = 'coco_text/train_label.json',
+train_ann_file5 = 'IIIT5K/train_label.json',
+train_ann_file6 = 'SynthText_Add/label.json',
+train_ann_file7 = 'SynthText/shuffle_labels.json',
+train_ann_file8 = 'Syn90k/shuffle_labels.json'

 train1 = dict(
    type='OCRDataset',
-    img_prefix=train_img_prefix1,
+    data_root=data_root,
+    data_prefix=dict(img_path=train_img_prefix1),
    ann_file=train_ann_file1,
-    loader=dict(
-        type='AnnFileLoader',
-        repeat=20,
-        file_format='txt',
-        parser=dict(
-            type='LineStrParser',
-            keys=['filename', 'text'],
-            keys_idx=[0, 1],
-            separator=' ')),
-    pipeline=None,
-    test_mode=False)
+    test_mode=False,
+    pipeline=None)

 train2 = {key: value for key, value in train1.items()}
-train2['img_prefix'] = train_img_prefix2
+train2['data_prefix'] = dict(img_path=train_img_prefix2)
 train2['ann_file'] = train_ann_file2

 train3 = {key: value for key, value in train1.items()}
-train3['img_prefix'] = train_img_prefix3
+train3['img_prefix'] = dict(img_path=train_img_prefix3)
 train3['ann_file'] = train_ann_file3

 train4 = {key: value for key, value in train1.items()}
-train4['img_prefix'] = train_img_prefix4
+train4['img_prefix'] = dict(img_path=train_img_prefix4)
 train4['ann_file'] = train_ann_file4

 train5 = {key: value for key, value in train1.items()}
-train5['img_prefix'] = train_img_prefix5
+train5['img_prefix'] = dict(img_path=train_img_prefix5)
 train5['ann_file'] = train_ann_file5

-train6 = dict(
-    type='OCRDataset',
-    img_prefix=train_img_prefix6,
-    ann_file=train_ann_file6,
-    loader=dict(
-        type='AnnFileLoader',
-        repeat=1,
-        file_format='txt',
-        parser=dict(
-            type='LineStrParser',
-            keys=['filename', 'text'],
-            keys_idx=[0, 1],
-            separator=' ')),
-    pipeline=None,
-    test_mode=False)
+train6 = {key: value for key, value in train1.items()}
+train6['img_prefix'] = dict(img_path=train_img_prefix6)
+train6['ann_file'] = train_ann_file6

-train7 = {key: value for key, value in train6.items()}
-train7['img_prefix'] = train_img_prefix7
+train7 = {key: value for key, value in train1.items()}
+train7['img_prefix'] = dict(img_path=train_img_prefix7)
 train7['ann_file'] = train_ann_file7

-train8 = {key: value for key, value in train6.items()}
-train8['img_prefix'] = train_img_prefix8
+train8 = {key: value for key, value in train1.items()}
+train8['img_prefix'] = dict(img_path=train_img_prefix8)
 train8['ann_file'] = train_ann_file8

 train_list = [train1, train2, train3, train4, train5, train6, train7, train8]
--- a/configs/_base_/recog_datasets/ST_SA_MJ_train.py
+++ b/configs/_base_/recog_datasets/ST_SA_MJ_train.py
@ -1,48 +1,30 @@
 # Text Recognition Training set, including:
 # Synthetic Datasets: SynthText, Syn90k
+data_root = 'data/recog'

-train_root = 'data/mixture'
+train_img_prefix1 = 'SynthText_Add'
+train_img_prefix2 = 'SynthText/synthtext/' + \
+    'SynthText_patch_horizontal'
+train_img_prefix3 = 'Syn90k/mnt/ramdisk/max/90kDICT32px'

-train_img_prefix1 = f'{train_root}/Syn90k/mnt/ramdisk/max/90kDICT32px'
-train_ann_file1 = f'{train_root}/Syn90k/label.lmdb'
+train_ann_file1 = 'SynthText_Add/label.json',
+train_ann_file2 = 'SynthText/label.json',
+train_ann_file3 = 'Syn90k/label.json'

 train1 = dict(
    type='OCRDataset',
-    img_prefix=train_img_prefix1,
+    data_root=data_root,
+    data_prefix=dict(img_path=train_img_prefix1),
    ann_file=train_ann_file1,
-    loader=dict(
-        type='AnnFileLoader',
-        repeat=1,
-        file_format='lmdb',
-        parser=dict(type='LineJsonParser', keys=['filename', 'text'])),
-    pipeline=None,
-    test_mode=False)
-
-train_img_prefix2 = f'{train_root}/SynthText/' + \
-    'synthtext/SynthText_patch_horizontal'
-train_ann_file2 = f'{train_root}/SynthText/label.lmdb'
-
-train_img_prefix3 = f'{train_root}/SynthText_Add'
-train_ann_file3 = f'{train_root}/SynthText_Add/label.txt'
+    test_mode=False,
+    pipeline=None)

 train2 = {key: value for key, value in train1.items()}
-train2['img_prefix'] = train_img_prefix2
+train2['data_prefix'] = dict(img_path=train_img_prefix2)
 train2['ann_file'] = train_ann_file2

-train3 = dict(
-    type='OCRDataset',
-    img_prefix=train_img_prefix3,
-    ann_file=train_ann_file3,
-    loader=dict(
-        type='AnnFileLoader',
-        repeat=1,
-        file_format='txt',
-        parser=dict(
-            type='LineStrParser',
-            keys=['filename', 'text'],
-            keys_idx=[0, 1],
-            separator=' ')),
-    pipeline=None,
-    test_mode=False)
+train3 = {key: value for key, value in train1.items()}
+train3['img_prefix'] = dict(img_path=train_img_prefix3)
+train3['ann_file'] = train_ann_file3

 train_list = [train1, train2, train3]
--- a/configs/_base_/recog_datasets/ST_charbox_train.py
+++ b/configs/_base_/recog_datasets/ST_charbox_train.py
@ -1,23 +0,0 @@
-# Text Recognition Training set, including:
-# Synthetic Datasets: SynthText (with character level boxes)
-
-train_img_root = 'data/mixture'
-
-train_img_prefix = f'{train_img_root}/SynthText'
-
-train_ann_file = f'{train_img_root}/SynthText/instances_train.txt'
-
-train = dict(
-    type='OCRSegDataset',
-    img_prefix=train_img_prefix,
-    ann_file=train_ann_file,
-    loader=dict(
-        type='AnnFileLoader',
-        repeat=1,
-        file_format='txt',
-        parser=dict(
-            type='LineJsonParser', keys=['file_name', 'annotations', 'text'])),
-    pipeline=None,
-    test_mode=False)
-
-train_list = [train]
--- a/configs/_base_/recog_datasets/academic_test.py
+++ b/configs/_base_/recog_datasets/academic_test.py
@ -2,56 +2,48 @@
 # Regular Datasets: IIIT5K, SVT, IC13
 # Irregular Datasets: IC15, SVTP, CT80

-test_root = 'data/mixture'
+test_root = 'data/recog'

-test_img_prefix1 = f'{test_root}/IIIT5K/'
-test_img_prefix2 = f'{test_root}/svt/'
-test_img_prefix3 = f'{test_root}/icdar_2013/'
-test_img_prefix4 = f'{test_root}/icdar_2015/'
-test_img_prefix5 = f'{test_root}/svtp/'
-test_img_prefix6 = f'{test_root}/ct80/'
+test_img_prefix1 = 'IIIT5K/'
+test_img_prefix2 = 'svt/'
+test_img_prefix3 = 'icdar_2013/'
+test_img_prefix4 = 'icdar_2015/'
+test_img_prefix5 = 'svtp/'
+test_img_prefix6 = 'ct80/'

-test_ann_file1 = f'{test_root}/IIIT5K/test_label.txt'
-test_ann_file2 = f'{test_root}/svt/test_label.txt'
-test_ann_file3 = f'{test_root}/icdar_2013/test_label_1015.txt'
-test_ann_file4 = f'{test_root}/icdar_2015/test_label.txt'
-test_ann_file5 = f'{test_root}/svtp/test_label.txt'
-test_ann_file6 = f'{test_root}/ct80/test_label.txt'
+test_ann_file1 = 'IIIT5K/test_label.josn'
+test_ann_file2 = 'svt/test_label.josn'
+test_ann_file3 = 'icdar_2013/test_label_1015.josn'
+test_ann_file4 = 'icdar_2015/test_label.josn'
+test_ann_file5 = 'svtp/test_label.josn'
+test_ann_file6 = 'ct80/test_label.josn'

 test1 = dict(
    type='OCRDataset',
-    img_prefix=test_img_prefix1,
+    data_root=test_root,
+    data_prefix=dict(img_path=test_img_prefix1),
    ann_file=test_ann_file1,
-    loader=dict(
-        type='AnnFileLoader',
-        repeat=1,
-        file_format='txt',
-        parser=dict(
-            type='LineStrParser',
-            keys=['filename', 'text'],
-            keys_idx=[0, 1],
-            separator=' ')),
-    pipeline=None,
-    test_mode=True)
+    test_mode=True,
+    pipeline=None)

 test2 = {key: value for key, value in test1.items()}
-test2['img_prefix'] = test_img_prefix2
+test2['data_prefix'] = dict(img_path=test_img_prefix2)
 test2['ann_file'] = test_ann_file2

 test3 = {key: value for key, value in test1.items()}
-test3['img_prefix'] = test_img_prefix3
+test3['data_prefix'] = dict(img_path=test_img_prefix3)
 test3['ann_file'] = test_ann_file3

 test4 = {key: value for key, value in test1.items()}
-test4['img_prefix'] = test_img_prefix4
+test4['data_prefix'] = dict(img_path=test_img_prefix4)
 test4['ann_file'] = test_ann_file4

 test5 = {key: value for key, value in test1.items()}
-test5['img_prefix'] = test_img_prefix5
+test5['data_prefix'] = dict(img_path=test_img_prefix5)
 test5['ann_file'] = test_ann_file5

 test6 = {key: value for key, value in test1.items()}
-test6['img_prefix'] = test_img_prefix6
+test6['data_prefix'] = dict(img_path=test_img_prefix6)
 test6['ann_file'] = test_ann_file6

 test_list = [test1, test2, test3, test4, test5, test6]
--- a/configs/_base_/recog_datasets/seg_toy_data.py
+++ b/configs/_base_/recog_datasets/seg_toy_data.py
@ -1,34 +0,0 @@
-prefix = 'tests/data/ocr_char_ann_toy_dataset/'
-
-train = dict(
-    type='OCRSegDataset',
-    img_prefix=f'{prefix}/imgs',
-    ann_file=f'{prefix}/instances_train.txt',
-    loader=dict(
-        type='AnnFileLoader',
-        repeat=100,
-        file_format='txt',
-        parser=dict(
-            type='LineJsonParser', keys=['file_name', 'annotations', 'text'])),
-    pipeline=None,
-    test_mode=True)
-
-test = dict(
-    type='OCRDataset',
-    img_prefix=f'{prefix}/imgs',
-    ann_file=f'{prefix}/instances_test.txt',
-    loader=dict(
-        type='AnnFileLoader',
-        repeat=1,
-        file_format='txt',
-        parser=dict(
-            type='LineStrParser',
-            keys=['filename', 'text'],
-            keys_idx=[0, 1],
-            separator=' ')),
-    pipeline=None,
-    test_mode=True)
-
-train_list = [train]
-
-test_list = [test]
--- a/configs/_base_/recog_datasets/toy_data.py
+++ b/configs/_base_/recog_datasets/toy_data.py
@ -1,54 +1,24 @@
-dataset_type = 'OCRDataset'
+data_root = 'tests/data/recog_toy_dataset'
+train_img_prefix = 'imgs/'
+train_anno_file = 'label.json'

-root = 'tests/data/ocr_toy_dataset'
-img_prefix = f'{root}/imgs'
-train_anno_file1 = f'{root}/label.txt'
-
-train1 = dict(
-    type=dataset_type,
-    img_prefix=img_prefix,
-    ann_file=train_anno_file1,
-    loader=dict(
-        type='AnnFileLoader',
-        repeat=100,
-        file_format='txt',
-        file_storage_backend='disk',
-        parser=dict(
-            type='LineStrParser',
-            keys=['filename', 'text'],
-            keys_idx=[0, 1],
-            separator=' ')),
+train_dataset = dict(
+    type='OCRDataset',
+    data_root=data_root,
+    data_prefix=dict(img_path=train_img_prefix),
+    ann_file=train_anno_file,
    pipeline=None,
    test_mode=False)

-train_anno_file2 = f'{root}/label.lmdb'
-train2 = dict(
-    type=dataset_type,
-    img_prefix=img_prefix,
-    ann_file=train_anno_file2,
-    loader=dict(
-        type='AnnFileLoader',
-        repeat=100,
-        file_format='lmdb',
-        file_storage_backend='disk',
-        parser=dict(type='LineJsonParser', keys=['filename', 'text'])),
-    pipeline=None,
-    test_mode=False)
-
-test_anno_file1 = f'{root}/label.lmdb'
-test = dict(
-    type=dataset_type,
-    img_prefix=img_prefix,
-    ann_file=test_anno_file1,
-    loader=dict(
-        type='AnnFileLoader',
-        repeat=1,
-        file_format='lmdb',
-        file_storage_backend='disk',
-        parser=dict(type='LineJsonParser', keys=['filename', 'text'])),
+test_anno_file = f'{data_root}/label.json'
+test_dataset = dict(
+    type='OCRDataset',
+    data_root=data_root,
+    data_prefix=dict(img_path=train_img_prefix),
+    ann_file=train_anno_file,
    pipeline=None,
    test_mode=True)

-train_list = [train1, train2]
+train_list = [train_dataset]

-test_list = [test]
+test_list = [test_dataset]
--- a/configs/textdet/dbnet/dbnet_r18_fpnc_1200e_icdar2015.py
+++ b/configs/textdet/dbnet/dbnet_r18_fpnc_1200e_icdar2015.py
@ -1,13 +1,21 @@
 _base_ = [
    'dbnet_r18_fpnc.py',
+    '../../_base_/det_datasets/icdar2015.py',
    '../../_base_/default_runtime.py',
    '../../_base_/schedules/schedule_sgd_1200e.py',
 ]

+# dataset settings
+train_list = {{_base_.train_list}}
+test_list = {{_base_.test_list}}
+file_client_args = dict(backend='disk')
 default_hooks = dict(checkpoint=dict(type='CheckpointHook', interval=20), )

 train_pipeline_r18 = [
-    dict(type='LoadImageFromFile', color_type='color_ignore_orientation'),
+    dict(
+        type='LoadImageFromFile',
+        file_client_args=file_client_args,
+        color_type='color_ignore_orientation'),
    dict(
        type='LoadOCRAnnotations',
        with_polygon=True,
@ -32,7 +40,10 @@ train_pipeline_r18 = [
 ]

 test_pipeline_1333_736 = [
-    dict(type='LoadImageFromFile', color_type='color_ignore_orientation'),
+    dict(
+        type='LoadImageFromFile',
+        file_client_args=file_client_args,
+        color_type='color_ignore_orientation'),
    dict(type='Resize', scale=(1333, 736), keep_ratio=True),
    dict(
        type='PackTextDetInputs',
@ -40,37 +51,24 @@ test_pipeline_1333_736 = [
                   'instances'))
 ]

-dataset_type = 'OCRDataset'
-data_root = 'data/icdar2015'
-
-train_dataset = dict(
-    type=dataset_type,
-    data_root=data_root,
-    ann_file='instances_training.json',
-    data_prefix=dict(img_path='imgs/'),
-    filter_cfg=dict(filter_empty_gt=True, min_size=32),
-    pipeline=train_pipeline_r18)
-
-test_dataset = dict(
-    type=dataset_type,
-    data_root=data_root,
-    ann_file='instances_test.json',
-    data_prefix=dict(img_path='imgs/'),
-    test_mode=True,
-    pipeline=test_pipeline_1333_736)
-
 train_dataloader = dict(
    batch_size=16,
    num_workers=8,
    persistent_workers=False,
    sampler=dict(type='DefaultSampler', shuffle=True),
-    dataset=train_dataset)
+    dataset=dict(
+        type='ConcatDataset', datasets=train_list,
+        pipeline=train_pipeline_r18))
+
 val_dataloader = dict(
    batch_size=16,
    num_workers=8,
    persistent_workers=False,
    sampler=dict(type='DefaultSampler', shuffle=False),
-    dataset=test_dataset)
+    dataset=dict(
+        type='ConcatDataset',
+        datasets=test_list,
+        pipeline=test_pipeline_1333_736))
 test_dataloader = val_dataloader

 val_evaluator = dict(type='HmeanIOUMetric')
--- a/configs/textdet/dbnet/dbnet_r50dcnv2_fpnc_1200e_icdar2015.py
+++ b/configs/textdet/dbnet/dbnet_r50dcnv2_fpnc_1200e_icdar2015.py
@ -1,15 +1,23 @@
 _base_ = [
    'dbnet_r50dcnv2_fpnc.py',
+    '../../_base_/det_datasets/icdar2015.py',
    '../../_base_/default_runtime.py',
    '../../_base_/schedules/schedule_sgd_1200e.py',
 ]

+# dataset settings
+train_list = {{_base_.train_list}}
+test_list = {{_base_.test_list}}
+file_client_args = dict(backend='disk')
 default_hooks = dict(checkpoint=dict(type='CheckpointHook', interval=20), )

 load_from = 'checkpoints/textdet/dbnet/res50dcnv2_synthtext.pth'

 train_pipeline_r50dcnv2 = [
-    dict(type='LoadImageFromFile', color_type='color_ignore_orientation'),
+    dict(
+        type='LoadImageFromFile',
+        file_client_args=file_client_args,
+        color_type='color_ignore_orientation'),
    dict(
        type='LoadOCRAnnotations',
        with_bbox=True,
@ -34,7 +42,10 @@ train_pipeline_r50dcnv2 = [
 ]

 test_pipeline_4068_1024 = [
-    dict(type='LoadImageFromFile', color_type='color_ignore_orientation'),
+    dict(
+        type='LoadImageFromFile',
+        file_client_args=file_client_args,
+        color_type='color_ignore_orientation'),
    dict(type='Resize', scale=(4068, 1024), keep_ratio=True),
    dict(
        type='PackTextDetInputs',
@ -42,37 +53,24 @@ test_pipeline_4068_1024 = [
                   'instances'))
 ]

-dataset_type = 'OCRDataset'
-data_root = 'data/icdar2015'
-
-train_dataset = dict(
-    type=dataset_type,
-    data_root=data_root,
-    ann_file='instances_training.json',
-    data_prefix=dict(img_path='imgs/'),
-    filter_cfg=dict(filter_empty_gt=True, min_size=32),
-    pipeline=train_pipeline_r50dcnv2)
-
-test_dataset = dict(
-    type=dataset_type,
-    data_root=data_root,
-    ann_file='instances_test.json',
-    data_prefix=dict(img_path='imgs/'),
-    test_mode=True,
-    pipeline=test_pipeline_4068_1024)
-
 train_dataloader = dict(
    batch_size=16,
    num_workers=8,
    persistent_workers=True,
    sampler=dict(type='DefaultSampler', shuffle=True),
-    dataset=train_dataset)
+    dataset=dict(
+        type='ConcatDataset',
+        datasets=train_list,
+        pipeline=train_pipeline_r50dcnv2))
 val_dataloader = dict(
    batch_size=16,
    num_workers=8,
    persistent_workers=True,
    sampler=dict(type='DefaultSampler', shuffle=False),
-    dataset=test_dataset)
+    dataset=dict(
+        type='ConcatDataset',
+        datasets=test_list,
+        pipeline=test_pipeline_4068_1024))
 test_dataloader = val_dataloader

 val_evaluator = dict(type='HmeanIOUMetric')
--- a/configs/textdet/drrg/drrg_r50_fpn_unet_1200e_ctw1500.py
+++ b/configs/textdet/drrg/drrg_r50_fpn_unet_1200e_ctw1500.py
@ -1,11 +1,21 @@
 _base_ = [
    'drrg_r50_fpn_unet.py',
+    '../../_base_/det_datasets/icdar2015.py',
    '../../_base_/default_runtime.py',
    '../../_base_/schedules/schedule_sgd_1200e.py',
 ]

+# dataset settings
+train_list = {{_base_.train_list}}
+test_list = {{_base_.test_list}}
+file_client_args = dict(backend='disk')
+default_hooks = dict(checkpoint=dict(type='CheckpointHook', interval=20), )
+
 train_pipeline = [
-    dict(type='LoadImageFromFile', color_type='color_ignore_orientation'),
+    dict(
+        type='LoadImageFromFile',
+        file_client_args=file_client_args,
+        color_type='color_ignore_orientation'),
    dict(
        type='LoadOCRAnnotations',
        with_bbox=True,
@ -55,7 +65,10 @@ train_pipeline = [
 ]

 test_pipeline = [
-    dict(type='LoadImageFromFile', color_type='color_ignore_orientation'),
+    dict(
+        type='LoadImageFromFile',
+        file_client_args=file_client_args,
+        color_type='color_ignore_orientation'),
    dict(type='Resize', scale=(1024, 640), keep_ratio=True),
    dict(
        type='PackTextDetInputs',
@ -63,37 +76,20 @@ test_pipeline = [
                   'instances'))
 ]

-dataset_type = 'OCRDataset'
-data_root = 'data/ctw1500'
-
-train_dataset = dict(
-    type=dataset_type,
-    data_root=data_root,
-    ann_file='instances_training.json',
-    data_prefix=dict(img_path='imgs/'),
-    filter_cfg=dict(filter_empty_gt=True, min_size=32),
-    pipeline=train_pipeline)
-
-test_dataset = dict(
-    type=dataset_type,
-    data_root=data_root,
-    ann_file='instances_test.json',
-    data_prefix=dict(img_path='imgs/'),
-    test_mode=True,
-    pipeline=test_pipeline)
-
 train_dataloader = dict(
    batch_size=4,
    num_workers=4,
    persistent_workers=True,
    sampler=dict(type='DefaultSampler', shuffle=True),
-    dataset=train_dataset)
+    dataset=dict(
+        type='ConcatDataset', datasets=train_list, pipeline=train_pipeline))
 val_dataloader = dict(
    batch_size=1,
    num_workers=1,
    persistent_workers=True,
    sampler=dict(type='DefaultSampler', shuffle=False),
-    dataset=test_dataset)
+    dataset=dict(
+        type='ConcatDataset', datasets=test_list, pipeline=test_pipeline))
 test_dataloader = val_dataloader

 val_evaluator = dict(type='HmeanIOUMetric')
--- a/configs/textdet/fcenet/fcenet_r50_fpn_1500e_icdar2015.py
+++ b/configs/textdet/fcenet/fcenet_r50_fpn_1500e_icdar2015.py
@ -1,15 +1,23 @@
 _base_ = [
    'fcenet_r50_fpn.py',
+    '../../_base_/det_datasets/icdar2015.py',
    '../../_base_/default_runtime.py',
    '../../_base_/schedules/schedule_sgd_1500e.py',
 ]

+# dataset settings
+train_list = {{_base_.train_list}}
+test_list = {{_base_.test_list}}
+file_client_args = dict(backend='disk')
 default_hooks = dict(
    checkpoint=dict(type='CheckpointHook', interval=20),
    logger=dict(type='LoggerHook', interval=20))

 train_pipeline = [
-    dict(type='LoadImageFromFile', color_type='color_ignore_orientation'),
+    dict(
+        type='LoadImageFromFile',
+        file_client_args=file_client_args,
+        color_type='color_ignore_orientation'),
    dict(
        type='LoadOCRAnnotations',
        with_polygon=True,
@ -55,7 +63,10 @@ train_pipeline = [
        meta_keys=('img_path', 'ori_shape', 'img_shape', 'scale_factor'))
 ]
 test_pipeline = [
-    dict(type='LoadImageFromFile', color_type='color_ignore_orientation'),
+    dict(
+        type='LoadImageFromFile',
+        file_client_args=file_client_args,
+        color_type='color_ignore_orientation'),
    dict(type='Resize', scale=(2260, 2260), keep_ratio=True),
    dict(
        type='PackTextDetInputs',
@ -63,37 +74,20 @@ test_pipeline = [
                   'instances'))
 ]

-dataset_type = 'OCRDataset'
-data_root = 'data/icdar2015'
-
-train_dataset = dict(
-    type=dataset_type,
-    data_root=data_root,
-    ann_file='instances_training.json',
-    data_prefix=dict(img_path='imgs/'),
-    filter_cfg=dict(filter_empty_gt=True, min_size=32),
-    pipeline=train_pipeline)
-
-test_dataset = dict(
-    type=dataset_type,
-    data_root=data_root,
-    ann_file='instances_test.json',
-    data_prefix=dict(img_path='imgs/'),
-    test_mode=True,
-    pipeline=test_pipeline)
-
 train_dataloader = dict(
    batch_size=8,
    num_workers=4,
    persistent_workers=True,
    sampler=dict(type='DefaultSampler', shuffle=True),
-    dataset=train_dataset)
+    dataset=dict(
+        type='ConcatDataset', datasets=train_list, pipeline=train_pipeline))
 val_dataloader = dict(
    batch_size=1,
    num_workers=4,
    persistent_workers=True,
    sampler=dict(type='DefaultSampler', shuffle=False),
-    dataset=test_dataset)
+    dataset=dict(
+        type='ConcatDataset', datasets=test_list, pipeline=test_pipeline))
 test_dataloader = val_dataloader

 val_evaluator = dict(type='HmeanIOUMetric')
--- a/configs/textdet/fcenet/fcenet_r50dcnv2_fpn_1500e_ctw1500.py
+++ b/configs/textdet/fcenet/fcenet_r50dcnv2_fpn_1500e_ctw1500.py
@ -1,15 +1,23 @@
 _base_ = [
    'fcenet_r50_fpn.py',
+    '../../_base_/det_datasets/ctw1500.py',
    '../../_base_/default_runtime.py',
    '../../_base_/schedules/schedule_sgd_1500e.py',
 ]

+# dataset settings
+train_list = {{_base_.train_list}}
+test_list = {{_base_.test_list}}
+file_client_args = dict(backend='disk')
 default_hooks = dict(
    checkpoint=dict(type='CheckpointHook', interval=20),
    logger=dict(type='LoggerHook', interval=20))

 train_pipeline = [
-    dict(type='LoadImageFromFile', color_type='color_ignore_orientation'),
+    dict(
+        type='LoadImageFromFile',
+        file_client_args=file_client_args,
+        color_type='color_ignore_orientation'),
    dict(
        type='LoadOCRAnnotations',
        with_polygon=True,
@ -60,7 +68,10 @@ train_pipeline = [
        meta_keys=('img_path', 'ori_shape', 'img_shape', 'scale_factor'))
 ]
 test_pipeline = [
-    dict(type='LoadImageFromFile', color_type='color_ignore_orientation'),
+    dict(
+        type='LoadImageFromFile',
+        file_client_args=file_client_args,
+        color_type='color_ignore_orientation'),
    dict(type='Resize', scale=(1080, 736), keep_ratio=True),
    dict(
        type='PackTextDetInputs',
@ -68,37 +79,20 @@ test_pipeline = [
                   'instances'))
 ]

-dataset_type = 'OCRDataset'
-data_root = 'data/ctw'
-
-train_dataset = dict(
-    type=dataset_type,
-    data_root=data_root,
-    ann_file='instances_training.json',
-    data_prefix=dict(img_path='imgs/'),
-    filter_cfg=dict(filter_empty_gt=True, min_size=32),
-    pipeline=train_pipeline)
-
-test_dataset = dict(
-    type=dataset_type,
-    data_root=data_root,
-    ann_file='instances_test.json',
-    data_prefix=dict(img_path='imgs/'),
-    test_mode=True,
-    pipeline=test_pipeline)
-
 train_dataloader = dict(
    batch_size=8,
    num_workers=4,
    persistent_workers=True,
    sampler=dict(type='DefaultSampler', shuffle=True),
-    dataset=train_dataset)
+    dataset=dict(
+        type='ConcatDataset', datasets=train_list, pipeline=train_pipeline))
 val_dataloader = dict(
    batch_size=1,
    num_workers=4,
    persistent_workers=True,
    sampler=dict(type='DefaultSampler', shuffle=False),
-    dataset=test_dataset)
+    dataset=dict(
+        type='ConcatDataset', datasets=test_list, pipeline=test_pipeline))
 test_dataloader = val_dataloader

 val_evaluator = dict(type='HmeanIOUMetric')
--- a/configs/textdet/maskrcnn/mask_rcnn_r50_fpn_160e_ctw1500.py
+++ b/configs/textdet/maskrcnn/mask_rcnn_r50_fpn_160e_ctw1500.py
@ -1,15 +1,23 @@
 _base_ = [
    'ocr_mask_rcnn_r50_fpn_ohem_poly.py',
+    '../../_base_/det_datasets/ctw1500.py',
    '../../_base_/default_runtime.py',
    '../../_base_/schedules/schedule_sgd_160e.py',
 ]

+# dataset settings
+train_list = {{_base_.train_list}}
+test_list = {{_base_.test_list}}
+file_client_args = dict(backend='disk')
 default_hooks = dict(
    checkpoint=dict(type='CheckpointHook', interval=20),
    logger=dict(type='LoggerHook', interval=20))

 train_pipeline = [
-    dict(type='LoadImageFromFile', color_type='color_ignore_orientation'),
+    dict(
+        type='LoadImageFromFile',
+        file_client_args=file_client_args,
+        color_type='color_ignore_orientation'),
    dict(
        type='LoadOCRAnnotations',
        with_polygon=True,
@ -37,7 +45,10 @@ train_pipeline = [
                   'scale_factor', 'flip_direction'))
 ]
 test_pipeline = [
-    dict(type='LoadImageFromFile', color_type='color_ignore_orientation'),
+    dict(
+        type='LoadImageFromFile',
+        file_client_args=file_client_args,
+        color_type='color_ignore_orientation'),
    dict(type='mmdet.Resize', scale=(1600, 1600), keep_ratio=True),
    dict(
        type='PackTextDetInputs',
@ -45,36 +56,20 @@ test_pipeline = [
                   'instances'))
 ]

-dataset_type = 'OCRDataset'
-data_root = 'data/ctw'
-
-train_dataset = dict(
-    type=dataset_type,
-    data_root=data_root,
-    ann_file='instances_training.json',
-    data_prefix=dict(img_path='imgs/'),
-    filter_cfg=dict(filter_empty_gt=True, min_size=32),
-    pipeline=train_pipeline)
-
-test_dataset = dict(
-    type=dataset_type,
-    data_root=data_root,
-    ann_file='instances_test.json',
-    data_prefix=dict(img_path='imgs/'),
-    test_mode=True,
-    pipeline=test_pipeline)
 train_dataloader = dict(
    batch_size=8,
    num_workers=4,
    persistent_workers=True,
    sampler=dict(type='DefaultSampler', shuffle=True),
-    dataset=train_dataset)
+    dataset=dict(
+        type='ConcatDataset', datasets=train_list, pipeline=train_pipeline))
 val_dataloader = dict(
    batch_size=1,
    num_workers=4,
    persistent_workers=True,
    sampler=dict(type='DefaultSampler', shuffle=False),
-    dataset=test_dataset)
+    dataset=dict(
+        type='ConcatDataset', datasets=test_list, pipeline=test_pipeline))
 test_dataloader = val_dataloader

 val_evaluator = dict(type='HmeanIOUMetric')
--- a/configs/textdet/maskrcnn/mask_rcnn_r50_fpn_160e_icdar2015.py
+++ b/configs/textdet/maskrcnn/mask_rcnn_r50_fpn_160e_icdar2015.py
@ -1,15 +1,23 @@
 _base_ = [
    'ocr_mask_rcnn_r50_fpn_ohem_poly.py',
+    '../../_base_/det_datasets/icdar2015.py',
    '../../_base_/default_runtime.py',
    '../../_base_/schedules/schedule_sgd_160e.py',
 ]

+# dataset settings
+train_list = {{_base_.train_list}}
+test_list = {{_base_.test_list}}
+file_client_args = dict(backend='disk')
 default_hooks = dict(
    checkpoint=dict(type='CheckpointHook', interval=20),
    logger=dict(type='LoggerHook', interval=20))

 train_pipeline = [
-    dict(type='LoadImageFromFile', color_type='color_ignore_orientation'),
+    dict(
+        type='LoadImageFromFile',
+        file_client_args=file_client_args,
+        color_type='color_ignore_orientation'),
    dict(
        type='LoadOCRAnnotations',
        with_polygon=True,
@ -37,7 +45,10 @@ train_pipeline = [
                   'scale_factor', 'flip_direction'))
 ]
 test_pipeline = [
-    dict(type='LoadImageFromFile', color_type='color_ignore_orientation'),
+    dict(
+        type='LoadImageFromFile',
+        file_client_args=file_client_args,
+        color_type='color_ignore_orientation'),
    dict(type='mmdet.Resize', scale=(1920, 1920), keep_ratio=True),
    dict(
        type='PackTextDetInputs',
@ -45,37 +56,20 @@ test_pipeline = [
                   'instances'))
 ]

-dataset_type = 'OCRDataset'
-data_root = 'data/icdar2015'
-
-train_dataset = dict(
-    type=dataset_type,
-    data_root=data_root,
-    ann_file='instances_test.json',
-    data_prefix=dict(img_path='imgs/'),
-    filter_cfg=dict(filter_empty_gt=True, min_size=32),
-    pipeline=train_pipeline)
-
-test_dataset = dict(
-    type=dataset_type,
-    data_root=data_root,
-    ann_file='instances_test.json',
-    data_prefix=dict(img_path='imgs/'),
-    test_mode=True,
-    pipeline=test_pipeline)
-
 train_dataloader = dict(
    batch_size=8,
    num_workers=4,
    persistent_workers=True,
    sampler=dict(type='DefaultSampler', shuffle=True),
-    dataset=train_dataset)
+    dataset=dict(
+        type='ConcatDataset', datasets=train_list, pipeline=train_pipeline))
 val_dataloader = dict(
    batch_size=1,
    num_workers=4,
    persistent_workers=True,
    sampler=dict(type='DefaultSampler', shuffle=False),
-    dataset=test_dataset)
+    dataset=dict(
+        type='ConcatDataset', datasets=test_list, pipeline=test_pipeline))
 test_dataloader = val_dataloader

 val_evaluator = dict(type='HmeanIOUMetric')
--- a/configs/textdet/maskrcnn/mask_rcnn_r50_fpn_160e_icdar2017.py
+++ b/configs/textdet/maskrcnn/mask_rcnn_r50_fpn_160e_icdar2017.py
@ -1,15 +1,23 @@
 _base_ = [
    'ocr_mask_rcnn_r50_fpn_ohem_poly.py',
+    '../../_base_/det_datasets/icdar2017.py',
    '../../_base_/default_runtime.py',
    '../../_base_/schedules/schedule_sgd_160e.py',
 ]

+# dataset settings
+train_list = {{_base_.train_list}}
+test_list = {{_base_.test_list}}
+file_client_args = dict(backend='disk')
 default_hooks = dict(
    checkpoint=dict(type='CheckpointHook', interval=20),
    logger=dict(type='LoggerHook', interval=20))

 train_pipeline = [
-    dict(type='LoadImageFromFile', color_type='color_ignore_orientation'),
+    dict(
+        type='LoadImageFromFile',
+        file_client_args=file_client_args,
+        color_type='color_ignore_orientation'),
    dict(
        type='LoadOCRAnnotations',
        with_polygon=True,
@ -36,7 +44,10 @@ train_pipeline = [
                   'scale_factor', 'flip_direction'))
 ]
 test_pipeline = [
-    dict(type='LoadImageFromFile', color_type='color_ignore_orientation'),
+    dict(
+        type='LoadImageFromFile',
+        file_client_args=file_client_args,
+        color_type='color_ignore_orientation'),
    dict(type='mmdet.Resize', scale=(1920, 1920), keep_ratio=True),
    dict(
        type='PackTextDetInputs',
@ -44,37 +55,22 @@ test_pipeline = [
                   'instances'))
 ]

-dataset_type = 'OCRDataset'
-data_root = 'data/icdar2017'
-
-train_dataset = dict(
-    type=dataset_type,
-    data_root=data_root,
-    ann_file='instances_training.json',
-    data_prefix=dict(img_path='imgs/'),
-    filter_cfg=dict(filter_empty_gt=True, min_size=32),
-    pipeline=train_pipeline)
-
-test_dataset = dict(
-    type=dataset_type,
-    data_root=data_root,
-    ann_file='instances_test.json',
-    data_prefix=dict(img_path='imgs/'),
-    test_mode=True,
-    pipeline=test_pipeline)
-
 train_dataloader = dict(
    batch_size=8,
    num_workers=4,
    persistent_workers=True,
    sampler=dict(type='DefaultSampler', shuffle=True),
-    dataset=train_dataset)
+    dataset=dict(
+        type='ConcatDataset', datasets=train_list, pipeline=train_pipeline))
+
 val_dataloader = dict(
    batch_size=1,
    num_workers=4,
    persistent_workers=True,
    sampler=dict(type='DefaultSampler', shuffle=False),
-    dataset=test_dataset)
+    dataset=dict(
+        type='ConcatDataset', datasets=test_list, pipeline=test_pipeline))
+
 test_dataloader = val_dataloader

 val_evaluator = dict(type='HmeanIOUMetric')
--- a/configs/textdet/panet/panet_r18_fpem_ffm_600e_icdar2015.py
+++ b/configs/textdet/panet/panet_r18_fpem_ffm_600e_icdar2015.py
@ -1,11 +1,21 @@
 _base_ = [
    'panet_r18_fpem_ffm.py',
    '../../_base_/default_runtime.py',
+    '../../_base_/det_datasets/icdar2015.py',
    '../../_base_/schedules/schedule_adam_600e.py',
 ]

+# dataset settings
+train_list = {{_base_.train_list}}
+test_list = {{_base_.test_list}}
+file_client_args = dict(backend='disk')
+default_hooks = dict(checkpoint=dict(type='CheckpointHook', interval=20), )
+
 train_pipeline = [
-    dict(type='LoadImageFromFile', color_type='color_ignore_orientation'),
+    dict(
+        type='LoadImageFromFile',
+        file_client_args=file_client_args,
+        color_type='color_ignore_orientation'),
    dict(
        type='LoadOCRAnnotations',
        with_polygon=True,
@ -28,7 +38,10 @@ train_pipeline = [
 ]

 test_pipeline = [
-    dict(type='LoadImageFromFile', color_type='color_ignore_orientation'),
+    dict(
+        type='LoadImageFromFile',
+        file_client_args=file_client_args,
+        color_type='color_ignore_orientation'),
    # TODO Replace with mmcv.RescaleToShort when it's ready
    dict(
        type='RescaleToShortAspectJitter',
@ -42,37 +55,20 @@ test_pipeline = [
                   'instances'))
 ]

-dataset_type = 'OCRDataset'
-data_root = 'data/det/icdar2015'
-
-train_dataset = dict(
-    type=dataset_type,
-    data_root=data_root,
-    ann_file='instance_training.json',
-    data_prefix=dict(img_path='imgs/'),
-    filter_cfg=dict(filter_empty_gt=True),
-    pipeline=train_pipeline)
-
-test_dataset = dict(
-    type=dataset_type,
-    data_root=data_root,
-    ann_file='instance_test.json',
-    data_prefix=dict(img_path='imgs/'),
-    test_mode=True,
-    pipeline=test_pipeline)
-
 train_dataloader = dict(
    batch_size=8,
    num_workers=4,
    persistent_workers=True,
    sampler=dict(type='DefaultSampler', shuffle=True),
-    dataset=train_dataset)
+    dataset=dict(
+        type='ConcatDataset', datasets=train_list, pipeline=train_pipeline))
 val_dataloader = dict(
    batch_size=1,
    num_workers=4,
    persistent_workers=True,
    sampler=dict(type='DefaultSampler', shuffle=False),
-    dataset=test_dataset)
+    dataset=dict(
+        type='ConcatDataset', datasets=test_list, pipeline=test_pipeline))
 test_dataloader = val_dataloader

 val_evaluator = dict(
--- a/configs/textdet/psenet/psenet_r50_fpnf_600e_icdar2015.py
+++ b/configs/textdet/psenet/psenet_r50_fpnf_600e_icdar2015.py
@ -1,13 +1,25 @@
 _base_ = [
    'psenet_r50_fpnf.py',
+    '../../_base_/det_datasets/icdar2015.py',
    '../../_base_/default_runtime.py',
    '../../_base_/schedules/schedule_adam_step_600e.py',
 ]

+# dataset settings
+train_list = {{_base_.train_list}}
+test_list = {{_base_.test_list}}
+file_client_args = dict(backend='disk')
+default_hooks = dict(
+    checkpoint=dict(type='CheckpointHook', interval=20),
+    logger=dict(type='LoggerHook', interval=20))
+
 model = {{_base_.model_quad}}

 train_pipeline_icdar2015 = [
-    dict(type='LoadImageFromFile', color_type='color_ignore_orientation'),
+    dict(
+        type='LoadImageFromFile',
+        file_client_args=file_client_args,
+        color_type='color_ignore_orientation'),
    dict(
        type='LoadOCRAnnotations',
        with_polygon=True,
@ -29,7 +41,10 @@ train_pipeline_icdar2015 = [
 ]

 test_pipeline_icdar2015 = [
-    dict(type='LoadImageFromFile', color_type='color_ignore_orientation'),
+    dict(
+        type='LoadImageFromFile',
+        file_client_args=file_client_args,
+        color_type='color_ignore_orientation'),
    dict(type='Resize', scale=(2240, 2240), keep_ratio=True),
    dict(
        type='PackTextDetInputs',
@ -37,37 +52,24 @@ test_pipeline_icdar2015 = [
                   'instances'))
 ]

-dataset_type = 'OCRDataset'
-data_root = 'data/icdar2015'
-
-train_dataset = dict(
-    type=dataset_type,
-    data_root=data_root,
-    ann_file='instances_training.json',
-    data_prefix=dict(img_path='imgs/'),
-    filter_cfg=dict(filter_empty_gt=True, min_size=32),
-    pipeline=train_pipeline_icdar2015)
-
-test_dataset = dict(
-    type=dataset_type,
-    data_root=data_root,
-    ann_file='instances_test.json',
-    data_prefix=dict(img_path='imgs/'),
-    test_mode=True,
-    pipeline=test_pipeline_icdar2015)
-
 train_dataloader = dict(
    batch_size=16,
    num_workers=8,
    persistent_workers=False,
    sampler=dict(type='DefaultSampler', shuffle=True),
-    dataset=train_dataset)
+    dataset=dict(
+        type='ConcatDataset',
+        datasets=train_list,
+        pipeline=train_pipeline_icdar2015))
 val_dataloader = dict(
    batch_size=1,
    num_workers=4,
    persistent_workers=False,
    sampler=dict(type='DefaultSampler', shuffle=False),
-    dataset=test_dataset)
+    dataset=dict(
+        type='ConcatDataset',
+        datasets=test_list,
+        pipeline=test_pipeline_icdar2015))
 test_dataloader = val_dataloader

 val_evaluator = dict(type='HmeanIOUMetric')
--- a/configs/textdet/textsnake/textsnake_r50_fpn_unet_1200e_ctw1500.py
+++ b/configs/textdet/textsnake/textsnake_r50_fpn_unet_1200e_ctw1500.py
@ -1,11 +1,23 @@
 _base_ = [
    'textsnake_r50_fpn_unet.py',
+    '../../_base_/det_datasets/ctw1500.py',
    '../../_base_/default_runtime.py',
    '../../_base_/schedules/schedule_sgd_1200e.py',
 ]

+# dataset settings
+train_list = {{_base_.train_list}}
+test_list = {{_base_.test_list}}
+file_client_args = dict(backend='disk')
+default_hooks = dict(
+    checkpoint=dict(type='CheckpointHook', interval=20),
+    logger=dict(type='LoggerHook', interval=20))
+
 train_pipeline = [
-    dict(type='LoadImageFromFile', color_type='color_ignore_orientation'),
+    dict(
+        type='LoadImageFromFile',
+        file_client_args=file_client_args,
+        color_type='color_ignore_orientation'),
    dict(
        type='LoadOCRAnnotations',
        with_bbox=True,
@ -46,7 +58,10 @@ train_pipeline = [
 ]

 test_pipeline = [
-    dict(type='LoadImageFromFile', color_type='color_ignore_orientation'),
+    dict(
+        type='LoadImageFromFile',
+        file_client_args=file_client_args,
+        color_type='color_ignore_orientation'),
    dict(type='Resize', scale=(1333, 736), keep_ratio=True),
    dict(
        type='PackTextDetInputs',
@ -54,37 +69,20 @@ test_pipeline = [
                   'instances'))
 ]

-dataset_type = 'OCRDataset'
-data_root = 'data/ctw1500'
-
-train_dataset = dict(
-    type=dataset_type,
-    data_root=data_root,
-    ann_file='instances_training.json',
-    data_prefix=dict(img_path='imgs/'),
-    filter_cfg=dict(filter_empty_gt=True, min_size=32),
-    pipeline=train_pipeline)
-
-test_dataset = dict(
-    type=dataset_type,
-    data_root=data_root,
-    ann_file='instances_test.json',
-    data_prefix=dict(img_path='imgs/'),
-    test_mode=True,
-    pipeline=test_pipeline)
-
 train_dataloader = dict(
    batch_size=4,
    num_workers=4,
    persistent_workers=True,
    sampler=dict(type='DefaultSampler', shuffle=True),
-    dataset=train_dataset)
+    dataset=dict(
+        type='ConcatDataset', datasets=train_list, pipeline=train_pipeline))
 val_dataloader = dict(
    batch_size=1,
    num_workers=1,
    persistent_workers=True,
    sampler=dict(type='DefaultSampler', shuffle=False),
-    dataset=test_dataset)
+    dataset=dict(
+        type='ConcatDataset', datasets=test_list, pipeline=test_pipeline))
 test_dataloader = val_dataloader

 val_evaluator = dict(type='HmeanIOUMetric')
--- a/configs/textrecog/abinet/base.py
+++ b/configs/textrecog/abinet/base.py
@ -1,14 +1,15 @@
 _base_ = [
+    '../../_base_/recog_datasets/ST_MJ_train.py',
+    '../../_base_/recog_datasets/academic_test.py',
    '../../_base_/default_runtime.py',
    '../../_base_/schedules/schedule_adam_step_20e.py',
 ]

-default_hooks = dict(logger=dict(type='LoggerHook', interval=100))
-
 # dataset settings
-dataset_type = 'OCRDataset'
-data_root = 'data/recog/'
+train_list = {{_base_.train_list}}
+test_list = {{_base_.test_list}}
 file_client_args = dict(backend='disk')
+default_hooks = dict(logger=dict(type='LoggerHook', interval=100))

 train_pipeline = [
    dict(type='LoadImageFromFile', file_client_args=file_client_args),
@ -80,26 +81,13 @@ test_pipeline = [
                   'instances'))
 ]

-dataset_mj = dict(
-    type=dataset_type,
-    data_root=data_root,
-    data_prefix=dict(img_path='mnt/ramdisk/max/90kDICT32px/'),
-    ann_file='data/MJ/label.json',
-    pipeline=train_pipeline)
-dataset_st = dict(
-    type=dataset_type,
-    data_root=data_root,
-    data_prefix=dict(
-        img_path='SynthText/synthtext/SynthText_patch_horizontal/'),
-    ann_file='data/ST/alphanumeric_labels.json',
-    pipeline=train_pipeline)
-
 train_dataloader = dict(
    batch_size=192 * 4,
    num_workers=32,
    persistent_workers=True,
    sampler=dict(type='DefaultSampler', shuffle=True),
-    dataset=dict(type='ConcatDataset', datasets=[dataset_mj, dataset_st]))
+    dataset=dict(
+        type='ConcatDataset', datasets=train_list, pipeline=train_pipeline))

 val_dataloader = dict(
    batch_size=192,
@ -108,12 +96,7 @@ val_dataloader = dict(
    drop_last=False,
    sampler=dict(type='DefaultSampler', shuffle=False),
    dataset=dict(
-        type=dataset_type,
-        data_root=data_root,
-        data_prefix=dict(img_path='testset/testset/IIIT5K/'),
-        ann_file='label.json',
-        test_mode=True,
-        pipeline=test_pipeline))
+        type='ConcatDataset', datasets=test_list, pipeline=test_pipeline))
 test_dataloader = val_dataloader

 val_evaluator = dict(type='WordMetric', mode=['ignore_case_symbol'])
--- a/configs/textrecog/crnn/crnn_academic_dataset.py
+++ b/configs/textrecog/crnn/crnn_academic_dataset.py
@ -2,15 +2,16 @@
 _base_ = [
    'crnn.py',
    '../../_base_/default_runtime.py',
+    '../../_base_/recog_datasets/MJ_train.py',
+    '../../_base_/recog_datasets/academic_test.py',
    '../../_base_/schedules/schedule_adadelta_5e.py',
 ]

-default_hooks = dict(logger=dict(type='LoggerHook', interval=50), )
-
 # dataset settings
-dataset_type = 'OCRDataset'
-data_root = 'data/recog/'
+train_list = {{_base_.train_list}}
+test_list = {{_base_.test_list}}
 file_client_args = dict(backend='disk')
+default_hooks = dict(logger=dict(type='LoggerHook', interval=50), )

 train_pipeline = [
    dict(
@ -47,11 +48,7 @@ train_dataloader = dict(
    persistent_workers=True,
    sampler=dict(type='DefaultSampler', shuffle=True),
    dataset=dict(
-        type=dataset_type,
-        data_root=data_root,
-        data_prefix=dict(img_path=None),
-        ann_file='train_label.json',
-        pipeline=train_pipeline))
+        type='ConcatDataset', datasets=train_list, pipeline=train_pipeline))

 val_dataloader = dict(
    batch_size=1,
@ -60,12 +57,7 @@ val_dataloader = dict(
    drop_last=False,
    sampler=dict(type='DefaultSampler', shuffle=False),
    dataset=dict(
-        type=dataset_type,
-        data_root=data_root,
-        data_prefix=dict(img_path=None),
-        ann_file='test_label.json',
-        test_mode=True,
-        pipeline=test_pipeline))
+        type='ConcatDataset', datasets=test_list, pipeline=test_pipeline))
 test_dataloader = val_dataloader

 val_evaluator = [
--- a/configs/textrecog/master/master_r31_12e_ST_MJ_SA.py
+++ b/configs/textrecog/master/master_r31_12e_ST_MJ_SA.py
@ -1,15 +1,16 @@
 _base_ = [
    'master.py',
+    '../../_base_/recog_datasets/ST_SA_MJ_train.py',
+    '../../_base_/recog_datasets/academic_test.py',
    '../../_base_/default_runtime.py',
    '../../_base_/schedules/schedule_adam_step_12e.py',
 ]

-default_hooks = dict(logger=dict(type='LoggerHook', interval=50), )
-
 # dataset settings
-dataset_type = 'OCRDataset'
-data_root = 'data/recog/'
+train_list = {{_base_.train_list}}
+test_list = {{_base_.test_list}}
 file_client_args = dict(backend='disk')
+default_hooks = dict(logger=dict(type='LoggerHook', interval=50), )

 train_pipeline = [
    dict(type='LoadImageFromFile', file_client_args=file_client_args),
@ -47,11 +48,7 @@ train_dataloader = dict(
    persistent_workers=True,
    sampler=dict(type='DefaultSampler', shuffle=True),
    dataset=dict(
-        type=dataset_type,
-        data_root=data_root,
-        data_prefix=dict(img_path=None),
-        ann_file='train_label.json',
-        pipeline=train_pipeline))
+        type='ConcatDataset', datasets=train_list, pipeline=train_pipeline))

 val_dataloader = dict(
    batch_size=128,
@ -60,12 +57,7 @@ val_dataloader = dict(
    drop_last=False,
    sampler=dict(type='DefaultSampler', shuffle=False),
    dataset=dict(
-        type=dataset_type,
-        data_root=data_root,
-        data_prefix=dict(img_path=None),
-        ann_file='test_label.json',
-        test_mode=True,
-        pipeline=test_pipeline))
+        type='ConcatDataset', datasets=test_list, pipeline=train_pipeline))
 test_dataloader = val_dataloader

 val_evaluator = [
--- a/configs/textrecog/master/master_toy_dataset.py
+++ b/configs/textrecog/master/master_toy_dataset.py
@ -1,15 +1,15 @@
 _base_ = [
    'master.py',
+    '../../_base_/recog_datasets/toy_data.py',
    '../../_base_/default_runtime.py',
    '../../_base_/schedules/schedule_adam_step_12e.py',
 ]

-default_hooks = dict(logger=dict(type='LoggerHook', interval=50), )
-
 # dataset settings
-dataset_type = 'OCRDataset'
-data_root = 'test/data/recog_toy_dataset'
+train_list = {{_base_.train_list}}
+test_list = {{_base_.test_list}}
 file_client_args = dict(backend='disk')
+default_hooks = dict(logger=dict(type='LoggerHook', interval=50), )

 train_pipeline = [
    dict(type='LoadImageFromFile', file_client_args=file_client_args),
@ -47,11 +47,7 @@ train_dataloader = dict(
    persistent_workers=True,
    sampler=dict(type='DefaultSampler', shuffle=True),
    dataset=dict(
-        type=dataset_type,
-        data_root=data_root,
-        data_prefix=dict(img_path=None),
-        ann_file='label.json',
-        pipeline=train_pipeline))
+        type='ConcatDataset', datasets=train_list, pipeline=train_pipeline))

 val_dataloader = dict(
    batch_size=2,
@ -60,12 +56,7 @@ val_dataloader = dict(
    drop_last=False,
    sampler=dict(type='DefaultSampler', shuffle=False),
    dataset=dict(
-        type=dataset_type,
-        data_root=data_root,
-        data_prefix=dict(img_path=None),
-        ann_file='label.json',
-        test_mode=True,
-        pipeline=test_pipeline))
+        type='ConcatDataset', datasets=test_list, pipeline=test_pipeline))
 test_dataloader = val_dataloader

 val_evaluator = [
--- a/configs/textrecog/nrtr/nrtr_modality_transform_academic.py
+++ b/configs/textrecog/nrtr/nrtr_modality_transform_academic.py
@ -1,5 +1,7 @@
 _base_ = [
-    'nrtr_modality_transform.py', '../../_base_/default_runtime.py',
+    'nrtr_modality_transform.py', '../../_base_/recog_datasets/ST_MJ_train.py',
+    '../../_base_/recog_datasets/academic_test.py',
+    '../../_base_/default_runtime.py',
    '../../_base_/schedules/schedule_adam_step_6e.py'
 ]

@ -7,9 +9,10 @@ optimizer = dict(type='Adam', lr=3e-4)
 default_hooks = dict(logger=dict(type='LoggerHook', interval=50))

 # dataset settings
-dataset_type = 'OCRDataset'
-data_root = 'data/recog/'
+train_list = {{_base_.train_list}}
+test_list = {{_base_.test_list}}
 file_client_args = dict(backend='disk')
+default_hooks = dict(logger=dict(type='LoggerHook', interval=100))

 train_pipeline = [
    dict(type='LoadImageFromFile', file_client_args=file_client_args),
@ -47,11 +50,7 @@ train_dataloader = dict(
    persistent_workers=True,
    sampler=dict(type='DefaultSampler', shuffle=True),
    dataset=dict(
-        type=dataset_type,
-        data_root=data_root,
-        data_prefix=dict(img_path=None),
-        ann_file='train_label.json',
-        pipeline=train_pipeline))
+        type='ConcatDataset', datasets=train_list, pipeline=test_pipeline))

 val_dataloader = dict(
    batch_size=128,
@ -60,12 +59,7 @@ val_dataloader = dict(
    drop_last=False,
    sampler=dict(type='DefaultSampler', shuffle=False),
    dataset=dict(
-        type=dataset_type,
-        data_root=data_root,
-        data_prefix=dict(img_path=None),
-        ann_file='test_label.json',
-        test_mode=True,
-        pipeline=test_pipeline))
+        type='ConcatDataset', datasets=test_list, pipeline=test_pipeline))
 test_dataloader = val_dataloader

 val_evaluator = [
--- a/configs/textrecog/nrtr/nrtr_modality_transform_toy_dataset.py
+++ b/configs/textrecog/nrtr/nrtr_modality_transform_toy_dataset.py
@ -3,12 +3,11 @@ _base_ = [
    '../../_base_/schedules/schedule_adam_step_6e.py'
 ]

-default_hooks = dict(logger=dict(type='LoggerHook', interval=50))
-
 # dataset settings
-dataset_type = 'OCRDataset'
-data_root = 'test/data/recog_toy_dataset'
+train_list = {{_base_.train_list}}
+test_list = {{_base_.test_list}}
 file_client_args = dict(backend='disk')
+default_hooks = dict(logger=dict(type='LoggerHook', interval=100))

 train_pipeline = [
    dict(type='LoadImageFromFile', file_client_args=file_client_args),
@ -46,11 +45,7 @@ train_dataloader = dict(
    persistent_workers=True,
    sampler=dict(type='DefaultSampler', shuffle=True),
    dataset=dict(
-        type=dataset_type,
-        data_root=data_root,
-        data_prefix=dict(img_path=None),
-        ann_file='label.json',
-        pipeline=train_pipeline))
+        type='ConcatDataset', datasets=train_list, pipeline=test_pipeline))

 val_dataloader = dict(
    batch_size=128,
@ -59,12 +54,8 @@ val_dataloader = dict(
    drop_last=False,
    sampler=dict(type='DefaultSampler', shuffle=False),
    dataset=dict(
-        type=dataset_type,
-        data_root=data_root,
-        data_prefix=dict(img_path=None),
-        ann_file='label.json',
-        test_mode=True,
-        pipeline=test_pipeline))
+        type='ConcatDataset', datasets=test_list, pipeline=test_pipeline))
+
 test_dataloader = val_dataloader

 val_evaluator = [
--- a/configs/textrecog/nrtr/nrtr_r31_1by16_1by8_academic.py
+++ b/configs/textrecog/nrtr/nrtr_r31_1by16_1by8_academic.py
@ -1,10 +1,17 @@
 _base_ = [
+    '../../_base_/recog_datasets/ST_MJ_train.py',
+    '../../_base_/recog_datasets/academic_test.py',
    '../../_base_/default_runtime.py',
    '../../_base_/schedules/schedule_adam_step_6e.py'
 ]

 optimizer = dict(type='Adam', lr=3e-4)
-default_hooks = dict(logger=dict(type='LoggerHook', interval=50))
+
+# dataset settings
+train_list = {{_base_.train_list}}
+test_list = {{_base_.test_list}}
+file_client_args = dict(backend='disk')
+default_hooks = dict(logger=dict(type='LoggerHook', interval=100))

 dictionary = dict(
    type='Dictionary',
@ -34,11 +41,6 @@ model = dict(
    preprocess_cfg=dict(
        mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375]))

-# dataset settings
-dataset_type = 'OCRDataset'
-data_root = 'data/recog/'
-file_client_args = dict(backend='disk')
-
 train_pipeline = [
    dict(type='LoadImageFromFile', file_client_args=file_client_args),
    dict(type='LoadOCRAnnotations', with_text=True),
@ -75,11 +77,7 @@ train_dataloader = dict(
    persistent_workers=True,
    sampler=dict(type='DefaultSampler', shuffle=True),
    dataset=dict(
-        type=dataset_type,
-        data_root=data_root,
-        data_prefix=dict(img_path=None),
-        ann_file='train_label.json',
-        pipeline=train_pipeline))
+        type='ConcatDataset', datasets=train_list, pipeline=train_pipeline))

 val_dataloader = dict(
    batch_size=128,
@ -88,12 +86,7 @@ val_dataloader = dict(
    drop_last=False,
    sampler=dict(type='DefaultSampler', shuffle=False),
    dataset=dict(
-        type=dataset_type,
-        data_root=data_root,
-        data_prefix=dict(img_path=None),
-        ann_file='test_label.json',
-        test_mode=True,
-        pipeline=test_pipeline))
+        type='ConcatDataset', datasets=test_list, pipeline=test_pipeline))
 test_dataloader = val_dataloader

 val_evaluator = [
--- a/configs/textrecog/nrtr/nrtr_r31_1by8_1by4_academic.py
+++ b/configs/textrecog/nrtr/nrtr_r31_1by8_1by4_academic.py
@ -1,4 +1,6 @@
 _base_ = [
+    '../../_base_/recog_datasets/ST_MJ_train.py',
+    '../../_base_/recog_datasets/academic_test.py',
    '../../_base_/default_runtime.py',
    '../../_base_/schedules/schedule_adam_step_6e.py'
 ]
@ -6,6 +8,12 @@ _base_ = [
 optimizer = dict(type='Adam', lr=3e-4)
 default_hooks = dict(logger=dict(type='LoggerHook', interval=50))

+# dataset settings
+train_list = {{_base_.train_list}}
+test_list = {{_base_.test_list}}
+file_client_args = dict(backend='disk')
+default_hooks = dict(logger=dict(type='LoggerHook', interval=100))
+
 dictionary = dict(
    type='Dictionary',
    dict_file='dicts/english_digits_symbols.txt',
@ -34,11 +42,6 @@ model = dict(
    preprocess_cfg=dict(
        mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375]))

-# dataset settings
-dataset_type = 'OCRDataset'
-data_root = 'data/recog/'
-file_client_args = dict(backend='disk')
-
 train_pipeline = [
    dict(type='LoadImageFromFile', file_client_args=file_client_args),
    dict(type='LoadOCRAnnotations', with_text=True),
@ -75,11 +78,7 @@ train_dataloader = dict(
    persistent_workers=True,
    sampler=dict(type='DefaultSampler', shuffle=True),
    dataset=dict(
-        type=dataset_type,
-        data_root=data_root,
-        data_prefix=dict(img_path=None),
-        ann_file='train_label.json',
-        pipeline=train_pipeline))
+        type='ConcatDataset', datasets=train_list, pipeline=train_pipeline))

 val_dataloader = dict(
    batch_size=128,
@ -88,12 +87,8 @@ val_dataloader = dict(
    drop_last=False,
    sampler=dict(type='DefaultSampler', shuffle=False),
    dataset=dict(
-        type=dataset_type,
-        data_root=data_root,
-        data_prefix=dict(img_path=None),
-        ann_file='test_label.json',
-        test_mode=True,
-        pipeline=test_pipeline))
+        type='ConcatDataset', datasets=test_list, pipeline=train_pipeline))
+
 test_dataloader = val_dataloader

 val_evaluator = [
--- a/configs/textrecog/robust_scanner/robustscanner_r31_academic.py
+++ b/configs/textrecog/robust_scanner/robustscanner_r31_academic.py
@ -1,12 +1,15 @@
 _base_ = [
-    'robust_scanner.py', '../../_base_/default_runtime.py',
+    'robust_scanner.py', '../../_base_/recog_datasets/ST_SA_MJ_real_train.py',
+    '../../_base_/recog_datasets/academic_test.py',
+    '../../_base_/default_runtime.py',
    '../../_base_/schedules/schedule_adam_step_5e.py'
 ]

 # dataset settings
-dataset_type = 'OCRDataset'
-data_root = 'data/recog'
+train_list = {{_base_.train_list}}
+test_list = {{_base_.test_list}}
 file_client_args = dict(backend='disk')
+default_hooks = dict(logger=dict(type='LoggerHook', interval=100))

 train_pipeline = [
    dict(type='LoadImageFromFile', file_client_args=file_client_args),
@ -38,11 +41,7 @@ train_dataloader = dict(
    persistent_workers=True,
    sampler=dict(type='DefaultSampler', shuffle=True),
    dataset=dict(
-        type=dataset_type,
-        data_root=data_root,
-        data_prefix=dict(img_path=''),
-        ann_file='train_label.json',
-        pipeline=train_pipeline))
+        type='ConcatDataset', datasets=train_list, pipeline=train_pipeline))

 val_dataloader = dict(
    batch_size=1,
@ -51,12 +50,7 @@ val_dataloader = dict(
    drop_last=False,
    sampler=dict(type='DefaultSampler', shuffle=False),
    dataset=dict(
-        type=dataset_type,
-        data_root=data_root,
-        data_prefix=dict(img_path=''),
-        ann_file='test_label.json',
-        test_mode=True,
-        pipeline=test_pipeline))
+        type='ConcatDataset', datasets=test_list, pipeline=test_pipeline))
 test_dataloader = val_dataloader

 val_evaluator = [
--- a/configs/textrecog/sar/sar_r31_parallel_decoder_academic.py
+++ b/configs/textrecog/sar/sar_r31_parallel_decoder_academic.py
@ -1,12 +1,16 @@
 _base_ = [
    'sar.py',
+    '../../_base_/recog_datasets/ST_SA_MJ_real_train.py',
+    '../../_base_/recog_datasets/academic_test.py',
    '../../_base_/default_runtime.py',
    '../../_base_/schedules/schedule_adam_step_5e.py',
 ]

-dataset_type = 'OCRDataset'
-data_root = 'data/recog/'
+# dataset settings
+train_list = {{_base_.train_list}}
+test_list = {{_base_.test_list}}
 file_client_args = dict(backend='disk')
+default_hooks = dict(logger=dict(type='LoggerHook', interval=100))

 train_pipeline = [
    dict(type='LoadImageFromFile', file_client_args=file_client_args),
@ -44,11 +48,7 @@ train_dataloader = dict(
    persistent_workers=True,
    sampler=dict(type='DefaultSampler', shuffle=True),
    dataset=dict(
-        type=dataset_type,
-        data_root=data_root,
-        data_prefix=dict(img_path=None),
-        ann_file='train_label.json',
-        pipeline=train_pipeline))
+        type='ConcatDataset', datasets=train_list, pipeline=train_pipeline))

 val_dataloader = dict(
    batch_size=1,
@ -57,12 +57,7 @@ val_dataloader = dict(
    drop_last=False,
    sampler=dict(type='DefaultSampler', shuffle=False),
    dataset=dict(
-        type=dataset_type,
-        data_root=data_root,
-        data_prefix=dict(img_path=None),
-        ann_file='test_label.json',
-        test_mode=True,
-        pipeline=test_pipeline))
+        type='ConcatDataset', datasets=test_list, pipeline=test_pipeline))
 test_dataloader = val_dataloader

 val_evaluator = [
--- a/configs/textrecog/sar/sar_r31_sequential_decoder_academic.py
+++ b/configs/textrecog/sar/sar_r31_sequential_decoder_academic.py
@ -1,12 +1,16 @@
 _base_ = [
    'sar.py',
+    '../../_base_/recog_datasets/ST_SA_MJ_real_train.py',
+    '../../_base_/recog_datasets/academic_test.py',
    '../../_base_/default_runtime.py',
    '../../_base_/schedules/schedule_adam_step_5e.py',
 ]

-dataset_type = 'OCRDataset'
-data_root = 'data/recog/'
+# dataset settings
+train_list = {{_base_.train_list}}
+test_list = {{_base_.test_list}}
 file_client_args = dict(backend='disk')
+default_hooks = dict(logger=dict(type='LoggerHook', interval=100))

 train_pipeline = [
    dict(type='LoadImageFromFile', file_client_args=file_client_args),
@ -38,11 +42,7 @@ train_dataloader = dict(
    persistent_workers=True,
    sampler=dict(type='DefaultSampler', shuffle=True),
    dataset=dict(
-        type=dataset_type,
-        data_root=data_root,
-        data_prefix=dict(img_path=None),
-        ann_file='train_label.json',
-        pipeline=train_pipeline))
+        type='ConcatDataset', datasets=train_list, pipeline=train_pipeline))

 val_dataloader = dict(
    batch_size=1,
@ -51,12 +51,7 @@ val_dataloader = dict(
    drop_last=False,
    sampler=dict(type='DefaultSampler', shuffle=False),
    dataset=dict(
-        type=dataset_type,
-        data_root=data_root,
-        data_prefix=dict(img_path=None),
-        ann_file='test_label.json',
-        test_mode=True,
-        pipeline=test_pipeline))
+        type='ConcatDataset', datasets=test_list, pipeline=test_pipeline))
 test_dataloader = val_dataloader

 val_evaluator = [
--- a/configs/textrecog/satrn/satrn_academic.py
+++ b/configs/textrecog/satrn/satrn_academic.py
@ -1,15 +1,19 @@
 _base_ = [
-    'satrn.py'
+    'satrn.py',
+    '../../_base_/recog_datasets/ST_MJ_train.py',
+    '../../_base_/recog_datasets/academic_test.py',
    '../../_base_/default_runtime.py',
    '../../_base_/schedules/schedule_adam_step_5e.py',
 ]

+# dataset settings
+train_list = {{_base_.train_list}}
+test_list = {{_base_.test_list}}
+file_client_args = dict(backend='disk')
 default_hooks = dict(logger=dict(type='LoggerHook', interval=50))

-# dataset settings
-dataset_type = 'OCRDataset'
-data_root = 'tests/data/ocr_toy_dataset'
-file_client_args = dict(backend='petrel')
+# optimizer
+optim_wrapper = dict(type='OptimWrapper', optimizer=dict(type='Adam', lr=3e-4))

 model = dict(
    type='SATRN',
@ -38,9 +42,6 @@ model = dict(
        max_seq_len=25,
        postprocessor=dict(type='AttentionPostprocessor')))

-# optimizer
-optim_wrapper = dict(type='OptimWrapper', optimizer=dict(type='Adam', lr=3e-4))
-
 train_pipeline = [
    dict(type='LoadImageFromFile', file_client_args=file_client_args),
    dict(type='LoadOCRAnnotations', with_text=True),
@ -66,11 +67,7 @@ train_dataloader = dict(
    persistent_workers=True,
    sampler=dict(type='DefaultSampler', shuffle=True),
    dataset=dict(
-        type=dataset_type,
-        data_root=data_root,
-        data_prefix=dict(img_path=None),
-        ann_file='train_label.json',
-        pipeline=train_pipeline))
+        type='ConcatDataset', datasets=train_list, pipeline=train_pipeline))

 val_dataloader = dict(
    batch_size=64,
@ -79,12 +76,7 @@ val_dataloader = dict(
    drop_last=False,
    sampler=dict(type='DefaultSampler', shuffle=False),
    dataset=dict(
-        type=dataset_type,
-        data_root=data_root,
-        data_prefix=dict(img_path=None),
-        ann_file='test_label.json',
-        test_mode=True,
-        pipeline=test_pipeline))
+        type='ConcatDataset', datasets=test_list, pipeline=test_pipeline))
 test_dataloader = val_dataloader

 val_evaluator = [