[Refactor] Refactor decode_head and segmentors and add preprocess_cfg

2025-06-03 22:03:48 +08:00 · 2022-06-10 14:02:40 +00:00 · 2022-06-10 14:02:40 +00:00 · dd9c411335
commit dd9c411335
parent 19f39539de
351 changed files with 1915 additions and 700 deletions
--- a/configs/_base_/datasets/ade20k.py
+++ b/configs/_base_/datasets/ade20k.py
@ -1,8 +1,6 @@
 # dataset settings
 dataset_type = 'ADE20KDataset'
 data_root = 'data/ade/ADEChallengeData2016'
 img_norm_cfg = dict(
    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
 crop_size = (512, 512)
 train_pipeline = [
    dict(type='LoadImageFromFile'),
@ -11,7 +9,6 @@ train_pipeline = [
    dict(type='RandomCrop', crop_size=crop_size, cat_max_ratio=0.75),
    dict(type='RandomFlip', prob=0.5),
    dict(type='PhotoMetricDistortion'),
    dict(type='Pad', size=crop_size),
    dict(type='PackSegInputs')
 ]
 test_pipeline = [
--- a/configs/_base_/datasets/ade20k_640x640.py
+++ b/configs/_base_/datasets/ade20k_640x640.py
@ -1,8 +1,6 @@
 # dataset settings
 dataset_type = 'ADE20KDataset'
 data_root = 'data/ade/ADEChallengeData2016'
 img_norm_cfg = dict(
    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
 crop_size = (640, 640)
 train_pipeline = [
    dict(type='LoadImageFromFile'),
@ -11,7 +9,6 @@ train_pipeline = [
    dict(type='RandomCrop', crop_size=crop_size, cat_max_ratio=0.75),
    dict(type='RandomFlip', prob=0.5),
    dict(type='PhotoMetricDistortion'),
    dict(type='Pad', size=crop_size),
    dict(type='PackSegInputs')
 ]
 test_pipeline = [
--- a/configs/_base_/datasets/chase_db1.py
+++ b/configs/_base_/datasets/chase_db1.py
@ -1,8 +1,6 @@
 # dataset settings
 dataset_type = 'ChaseDB1Dataset'
 data_root = 'data/CHASE_DB1'
 img_norm_cfg = dict(
    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
 img_scale = (960, 999)
 crop_size = (128, 128)
 train_pipeline = [
@ -12,7 +10,6 @@ train_pipeline = [
    dict(type='RandomCrop', crop_size=crop_size, cat_max_ratio=0.75),
    dict(type='RandomFlip', prob=0.5),
    dict(type='PhotoMetricDistortion'),
    dict(type='Pad', size=crop_size),
    dict(type='PackSegInputs')
 ]
 test_pipeline = [
--- a/configs/_base_/datasets/cityscapes.py
+++ b/configs/_base_/datasets/cityscapes.py
@ -1,8 +1,6 @@
 # dataset settings
 dataset_type = 'CityscapesDataset'
 data_root = 'data/cityscapes/'
 img_norm_cfg = dict(
    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
 crop_size = (512, 1024)
 train_pipeline = [
    dict(type='LoadImageFromFile'),
@ -11,7 +9,6 @@ train_pipeline = [
    dict(type='RandomCrop', crop_size=crop_size, cat_max_ratio=0.75),
    dict(type='RandomFlip', prob=0.5),
    dict(type='PhotoMetricDistortion'),
    dict(type='Pad', size=crop_size),
    dict(type='PackSegInputs')
 ]
 test_pipeline = [
--- a/configs/_base_/datasets/cityscapes_1024x1024.py
+++ b/configs/_base_/datasets/cityscapes_1024x1024.py
@ -1,6 +1,4 @@
 _base_ = './cityscapes.py'
 img_norm_cfg = dict(
    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
 crop_size = (1024, 1024)
 train_pipeline = [
    dict(type='LoadImageFromFile'),
@ -9,7 +7,6 @@ train_pipeline = [
    dict(type='RandomCrop', crop_size=crop_size, cat_max_ratio=0.75),
    dict(type='RandomFlip', prob=0.5),
    dict(type='PhotoMetricDistortion'),
    dict(type='Pad', size=crop_size),
    dict(type='PackSegInputs')
 ]
 test_pipeline = [
--- a/configs/_base_/datasets/cityscapes_768x768.py
+++ b/configs/_base_/datasets/cityscapes_768x768.py
@ -1,6 +1,4 @@
 _base_ = './cityscapes.py'
 img_norm_cfg = dict(
    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
 crop_size = (768, 768)
 train_pipeline = [
    dict(type='LoadImageFromFile'),
@ -9,7 +7,6 @@ train_pipeline = [
    dict(type='RandomCrop', crop_size=crop_size, cat_max_ratio=0.75),
    dict(type='RandomFlip', prob=0.5),
    dict(type='PhotoMetricDistortion'),
    dict(type='Pad', size=crop_size),
    dict(type='PackSegInputs')
 ]
 test_pipeline = [
--- a/configs/_base_/datasets/cityscapes_769x769.py
+++ b/configs/_base_/datasets/cityscapes_769x769.py
@ -1,6 +1,4 @@
 _base_ = './cityscapes.py'
 img_norm_cfg = dict(
    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
 crop_size = (769, 769)
 train_pipeline = [
    dict(type='LoadImageFromFile'),
@ -9,7 +7,6 @@ train_pipeline = [
    dict(type='RandomCrop', crop_size=crop_size, cat_max_ratio=0.75),
    dict(type='RandomFlip', prob=0.5),
    dict(type='PhotoMetricDistortion'),
    dict(type='Pad', size=crop_size),
    dict(type='PackSegInputs')
 ]
 test_pipeline = [
--- a/configs/_base_/datasets/cityscapes_832x832.py
+++ b/configs/_base_/datasets/cityscapes_832x832.py
@ -1,6 +1,4 @@
 _base_ = './cityscapes.py'
 img_norm_cfg = dict(
    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
 crop_size = (832, 832)
 train_pipeline = [
    dict(type='LoadImageFromFile'),
@ -9,7 +7,6 @@ train_pipeline = [
    dict(type='RandomCrop', crop_size=crop_size, cat_max_ratio=0.75),
    dict(type='RandomFlip', prob=0.5),
    dict(type='PhotoMetricDistortion'),
    dict(type='Pad', size=crop_size),
    dict(type='PackSegInputs')
 ]
 test_pipeline = [
--- a/configs/_base_/datasets/coco-stuff10k.py
+++ b/configs/_base_/datasets/coco-stuff10k.py
@ -1,8 +1,6 @@
 # dataset settings
 dataset_type = 'COCOStuffDataset'
 data_root = 'data/coco_stuff10k'
 img_norm_cfg = dict(
    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
 crop_size = (512, 512)
 train_pipeline = [
    dict(type='LoadImageFromFile'),
@ -11,7 +9,6 @@ train_pipeline = [
    dict(type='RandomCrop', crop_size=crop_size, cat_max_ratio=0.75),
    dict(type='RandomFlip', prob=0.5),
    dict(type='PhotoMetricDistortion'),
    dict(type='Pad', size=crop_size),
    dict(type='PackSegInputs')
 ]
 test_pipeline = [
--- a/configs/_base_/datasets/coco-stuff164k.py
+++ b/configs/_base_/datasets/coco-stuff164k.py
@ -1,8 +1,6 @@
 # dataset settings
 dataset_type = 'COCOStuffDataset'
 data_root = 'data/coco_stuff164k'
 img_norm_cfg = dict(
    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
 crop_size = (512, 512)
 train_pipeline = [
    dict(type='LoadImageFromFile'),
@ -11,7 +9,6 @@ train_pipeline = [
    dict(type='RandomCrop', crop_size=crop_size, cat_max_ratio=0.75),
    dict(type='RandomFlip', prob=0.5),
    dict(type='PhotoMetricDistortion'),
    dict(type='Pad', size=crop_size),
    dict(type='PackSegInputs')
 ]
 test_pipeline = [
--- a/configs/_base_/datasets/drive.py
+++ b/configs/_base_/datasets/drive.py
@ -1,8 +1,6 @@
 # dataset settings
 dataset_type = 'DRIVEDataset'
 data_root = 'data/DRIVE'
 img_norm_cfg = dict(
    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
 img_scale = (584, 565)
 crop_size = (64, 64)
 train_pipeline = [
@ -12,7 +10,6 @@ train_pipeline = [
    dict(type='RandomCrop', crop_size=crop_size, cat_max_ratio=0.75),
    dict(type='RandomFlip', prob=0.5),
    dict(type='PhotoMetricDistortion'),
    dict(type='Pad', size=crop_size),
    dict(type='PackSegInputs')
 ]
 test_pipeline = [
--- a/configs/_base_/datasets/hrf.py
+++ b/configs/_base_/datasets/hrf.py
@ -1,8 +1,6 @@
 # dataset settings
 dataset_type = 'HRFDataset'
 data_root = 'data/HRF'
 img_norm_cfg = dict(
    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
 img_scale = (2336, 3504)
 crop_size = (256, 256)
 train_pipeline = [
@ -12,7 +10,6 @@ train_pipeline = [
    dict(type='RandomCrop', crop_size=crop_size, cat_max_ratio=0.75),
    dict(type='RandomFlip', prob=0.5),
    dict(type='PhotoMetricDistortion'),
    dict(type='Pad', size=crop_size),
    dict(type='PackSegInputs')
 ]
 test_pipeline = [
--- a/configs/_base_/datasets/isaid.py
+++ b/configs/_base_/datasets/isaid.py
@ -1,9 +1,6 @@
 # dataset settings
 dataset_type = 'iSAIDDataset'
 data_root = 'data/iSAID'
 img_norm_cfg = dict(
    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
 """
 This crop_size setting is followed by the implementation of
 `PointFlow: Flowing Semantics Through Points for Aerial Image
@ -19,7 +16,6 @@ train_pipeline = [
    dict(type='RandomCrop', crop_size=crop_size, cat_max_ratio=0.75),
    dict(type='RandomFlip', prob=0.5),
    dict(type='PhotoMetricDistortion'),
    dict(type='Pad', size=crop_size),
    dict(type='PackSegInputs')
 ]
 test_pipeline = [
--- a/configs/_base_/datasets/loveda.py
+++ b/configs/_base_/datasets/loveda.py
@ -1,8 +1,6 @@
 # dataset settings
 dataset_type = 'LoveDADataset'
 data_root = 'data/loveDA'
 img_norm_cfg = dict(
    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
 crop_size = (512, 512)
 train_pipeline = [
    dict(type='LoadImageFromFile'),
@ -11,7 +9,6 @@ train_pipeline = [
    dict(type='RandomCrop', crop_size=crop_size, cat_max_ratio=0.75),
    dict(type='RandomFlip', prob=0.5),
    dict(type='PhotoMetricDistortion'),
    dict(type='Pad', size=crop_size),
    dict(type='PackSegInputs')
 ]
 test_pipeline = [
--- a/configs/_base_/datasets/pascal_context.py
+++ b/configs/_base_/datasets/pascal_context.py
@ -1,8 +1,6 @@
 # dataset settings
 dataset_type = 'PascalContextDataset'
 data_root = 'data/VOCdevkit/VOC2010/'
 img_norm_cfg = dict(
    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
 img_scale = (520, 520)
 crop_size = (480, 480)
@ -14,7 +12,6 @@ train_pipeline = [
    dict(type='RandomCrop', crop_size=crop_size, cat_max_ratio=0.75),
    dict(type='RandomFlip', prob=0.5),
    dict(type='PhotoMetricDistortion'),
    dict(type='Pad', size=crop_size),
    dict(type='PackSegInputs')
 ]
 test_pipeline = [
--- a/configs/_base_/datasets/pascal_context_59.py
+++ b/configs/_base_/datasets/pascal_context_59.py
@ -1,8 +1,6 @@
 # dataset settings
 dataset_type = 'PascalContextDataset59'
 data_root = 'data/VOCdevkit/VOC2010/'
 img_norm_cfg = dict(
    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
 img_scale = (520, 520)
 crop_size = (480, 480)
@ -14,7 +12,6 @@ train_pipeline = [
    dict(type='RandomCrop', crop_size=crop_size, cat_max_ratio=0.75),
    dict(type='RandomFlip', prob=0.5),
    dict(type='PhotoMetricDistortion'),
    dict(type='Pad', size=crop_size),
    dict(type='PackSegInputs')
 ]
 test_pipeline = [
--- a/configs/_base_/datasets/pascal_voc12.py
+++ b/configs/_base_/datasets/pascal_voc12.py
@ -1,8 +1,6 @@
 # dataset settings
 dataset_type = 'PascalVOCDataset'
 data_root = 'data/VOCdevkit/VOC2012'
 img_norm_cfg = dict(
    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
 crop_size = (512, 512)
 train_pipeline = [
    dict(type='LoadImageFromFile'),
@ -11,7 +9,6 @@ train_pipeline = [
    dict(type='RandomCrop', crop_size=crop_size, cat_max_ratio=0.75),
    dict(type='RandomFlip', prob=0.5),
    dict(type='PhotoMetricDistortion'),
    dict(type='Pad', size=crop_size),
    dict(type='PackSegInputs')
 ]
 test_pipeline = [
--- a/configs/_base_/datasets/potsdam.py
+++ b/configs/_base_/datasets/potsdam.py
@ -1,8 +1,6 @@
 # dataset settings
 dataset_type = 'PotsdamDataset'
 data_root = 'data/potsdam'
 img_norm_cfg = dict(
    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
 crop_size = (512, 512)
 train_pipeline = [
    dict(type='LoadImageFromFile'),
@ -11,7 +9,6 @@ train_pipeline = [
    dict(type='RandomCrop', crop_size=crop_size, cat_max_ratio=0.75),
    dict(type='RandomFlip', prob=0.5),
    dict(type='PhotoMetricDistortion'),
    dict(type='Pad', size=crop_size),
    dict(type='PackSegInputs')
 ]
 test_pipeline = [
--- a/configs/_base_/datasets/stare.py
+++ b/configs/_base_/datasets/stare.py
@ -1,8 +1,6 @@
 # dataset settings
 dataset_type = 'STAREDataset'
 data_root = 'data/STARE'
 img_norm_cfg = dict(
    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
 img_scale = (605, 700)
 crop_size = (128, 128)
 train_pipeline = [
@ -12,7 +10,6 @@ train_pipeline = [
    dict(type='RandomCrop', crop_size=crop_size, cat_max_ratio=0.75),
    dict(type='RandomFlip', prob=0.5),
    dict(type='PhotoMetricDistortion'),
    dict(type='Pad', size=crop_size),
    dict(type='PackSegInputs')
 ]
 test_pipeline = [
--- a/configs/_base_/datasets/vaihingen.py
+++ b/configs/_base_/datasets/vaihingen.py
@ -1,8 +1,6 @@
 # dataset settings
 dataset_type = 'ISPRSDataset'
 data_root = 'data/vaihingen'
 img_norm_cfg = dict(
    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
 crop_size = (512, 512)
 train_pipeline = [
    dict(type='LoadImageFromFile'),
@ -11,7 +9,6 @@ train_pipeline = [
    dict(type='RandomCrop', crop_size=crop_size, cat_max_ratio=0.75),
    dict(type='RandomFlip', prob=0.5),
    dict(type='PhotoMetricDistortion'),
    dict(type='Pad', size=crop_size),
    dict(type='PackSegInputs')
 ]
 test_pipeline = [
--- a/configs/_base_/models/ann_r50-d8.py
+++ b/configs/_base_/models/ann_r50-d8.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained='open-mmlab://resnet50_v1c',
    backbone=dict(
        type='ResNetV1c',
--- a/configs/_base_/models/apcnet_r50-d8.py
+++ b/configs/_base_/models/apcnet_r50-d8.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained='open-mmlab://resnet50_v1c',
    backbone=dict(
        type='ResNetV1c',
--- a/configs/_base_/models/bisenetv1_r18-d32.py
+++ b/configs/_base_/models/bisenetv1_r18-d32.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    backbone=dict(
        type='BiSeNetV1',
        in_channels=3,
--- a/configs/_base_/models/bisenetv2.py
+++ b/configs/_base_/models/bisenetv2.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained=None,
    backbone=dict(
        type='BiSeNetV2',
--- a/configs/_base_/models/ccnet_r50-d8.py
+++ b/configs/_base_/models/ccnet_r50-d8.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained='open-mmlab://resnet50_v1c',
    backbone=dict(
        type='ResNetV1c',
--- a/configs/_base_/models/cgnet.py
+++ b/configs/_base_/models/cgnet.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', eps=1e-03, requires_grad=True)
 preprocess_cfg = dict(
    mean=[72.39239876, 82.90891754, 73.15835921],
    std=[1, 1, 1],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    backbone=dict(
        type='CGNet',
        norm_cfg=norm_cfg,
--- a/configs/_base_/models/danet_r50-d8.py
+++ b/configs/_base_/models/danet_r50-d8.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained='open-mmlab://resnet50_v1c',
    backbone=dict(
        type='ResNetV1c',
--- a/configs/_base_/models/deeplabv3_r50-d8.py
+++ b/configs/_base_/models/deeplabv3_r50-d8.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained='open-mmlab://resnet50_v1c',
    backbone=dict(
        type='ResNetV1c',
--- a/configs/_base_/models/deeplabv3_unet_s5-d16.py
+++ b/configs/_base_/models/deeplabv3_unet_s5-d16.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained=None,
    backbone=dict(
        type='UNet',
--- a/configs/_base_/models/deeplabv3plus_r50-d8.py
+++ b/configs/_base_/models/deeplabv3plus_r50-d8.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained='open-mmlab://resnet50_v1c',
    backbone=dict(
        type='ResNetV1c',
--- a/configs/_base_/models/dmnet_r50-d8.py
+++ b/configs/_base_/models/dmnet_r50-d8.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained='open-mmlab://resnet50_v1c',
    backbone=dict(
        type='ResNetV1c',
--- a/configs/_base_/models/dnl_r50-d8.py
+++ b/configs/_base_/models/dnl_r50-d8.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained='open-mmlab://resnet50_v1c',
    backbone=dict(
        type='ResNetV1c',
--- a/configs/_base_/models/dpt_vit-b16.py
+++ b/configs/_base_/models/dpt_vit-b16.py
@ -1,6 +1,13 @@
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained='pretrain/vit-b16_p16_224-80ecf9dd.pth', # noqa
    backbone=dict(
        type='VisionTransformer',
--- a/configs/_base_/models/emanet_r50-d8.py
+++ b/configs/_base_/models/emanet_r50-d8.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained='open-mmlab://resnet50_v1c',
    backbone=dict(
        type='ResNetV1c',
--- a/configs/_base_/models/encnet_r50-d8.py
+++ b/configs/_base_/models/encnet_r50-d8.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained='open-mmlab://resnet50_v1c',
    backbone=dict(
        type='ResNetV1c',
--- a/configs/_base_/models/erfnet_fcn.py
+++ b/configs/_base_/models/erfnet_fcn.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained=None,
    backbone=dict(
        type='ERFNet',
--- a/configs/_base_/models/fast_scnn.py
+++ b/configs/_base_/models/fast_scnn.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', requires_grad=True, momentum=0.01)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    backbone=dict(
        type='FastSCNN',
        downsample_dw_channels=(32, 48),
--- a/configs/_base_/models/fastfcn_r50-d32_jpu_psp.py
+++ b/configs/_base_/models/fastfcn_r50-d32_jpu_psp.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained='open-mmlab://resnet50_v1c',
    backbone=dict(
        type='ResNetV1c',
--- a/configs/_base_/models/fcn_hr18.py
+++ b/configs/_base_/models/fcn_hr18.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained='open-mmlab://msra/hrnetv2_w18',
    backbone=dict(
        type='HRNet',
--- a/configs/_base_/models/fcn_r50-d8.py
+++ b/configs/_base_/models/fcn_r50-d8.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained='open-mmlab://resnet50_v1c',
    backbone=dict(
        type='ResNetV1c',
--- a/configs/_base_/models/fcn_unet_s5-d16.py
+++ b/configs/_base_/models/fcn_unet_s5-d16.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained=None,
    backbone=dict(
        type='UNet',
--- a/configs/_base_/models/fpn_r50.py
+++ b/configs/_base_/models/fpn_r50.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained='open-mmlab://resnet50_v1c',
    backbone=dict(
        type='ResNetV1c',
--- a/configs/_base_/models/gcnet_r50-d8.py
+++ b/configs/_base_/models/gcnet_r50-d8.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained='open-mmlab://resnet50_v1c',
    backbone=dict(
        type='ResNetV1c',
--- a/configs/_base_/models/icnet_r50-d8.py
+++ b/configs/_base_/models/icnet_r50-d8.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    backbone=dict(
        type='ICNet',
        backbone_cfg=dict(
--- a/configs/_base_/models/isanet_r50-d8.py
+++ b/configs/_base_/models/isanet_r50-d8.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained='open-mmlab://resnet50_v1c',
    backbone=dict(
        type='ResNetV1c',
--- a/configs/_base_/models/lraspp_m-v3-d8.py
+++ b/configs/_base_/models/lraspp_m-v3-d8.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', eps=0.001, requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    backbone=dict(
        type='MobileNetV3',
        arch='large',
--- a/configs/_base_/models/nonlocal_r50-d8.py
+++ b/configs/_base_/models/nonlocal_r50-d8.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained='open-mmlab://resnet50_v1c',
    backbone=dict(
        type='ResNetV1c',
--- a/configs/_base_/models/ocrnet_hr18.py
+++ b/configs/_base_/models/ocrnet_hr18.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='CascadeEncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    num_stages=2,
    pretrained='open-mmlab://msra/hrnetv2_w18',
    backbone=dict(
--- a/configs/_base_/models/ocrnet_r50-d8.py
+++ b/configs/_base_/models/ocrnet_r50-d8.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='CascadeEncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    num_stages=2,
    pretrained='open-mmlab://resnet50_v1c',
    backbone=dict(
--- a/configs/_base_/models/pointrend_r50.py
+++ b/configs/_base_/models/pointrend_r50.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='CascadeEncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    num_stages=2,
    pretrained='open-mmlab://resnet50_v1c',
    backbone=dict(
--- a/configs/_base_/models/psanet_r50-d8.py
+++ b/configs/_base_/models/psanet_r50-d8.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained='open-mmlab://resnet50_v1c',
    backbone=dict(
        type='ResNetV1c',
--- a/configs/_base_/models/pspnet_r50-d8.py
+++ b/configs/_base_/models/pspnet_r50-d8.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained='open-mmlab://resnet50_v1c',
    backbone=dict(
        type='ResNetV1c',
--- a/configs/_base_/models/pspnet_unet_s5-d16.py
+++ b/configs/_base_/models/pspnet_unet_s5-d16.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained=None,
    backbone=dict(
        type='UNet',
--- a/configs/_base_/models/segformer_mit-b0.py
+++ b/configs/_base_/models/segformer_mit-b0.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained=None,
    backbone=dict(
        type='MixVisionTransformer',
--- a/configs/_base_/models/segmenter_vit-b16_mask.py
+++ b/configs/_base_/models/segmenter_vit-b16_mask.py
@ -1,8 +1,15 @@
 checkpoint = 'https://download.openmmlab.com/mmsegmentation/v0.5/pretrain/segmenter/vit_base_p16_384_20220308-96dfe169.pth'  # noqa
 # model settings
 backbone_norm_cfg = dict(type='LN', eps=1e-6, requires_grad=True)
 preprocess_cfg = dict(
    mean=[127.5, 127.5, 127.5],
    std=[127.5, 127.5, 127.5],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained=checkpoint,
    backbone=dict(
        type='VisionTransformer',
--- a/configs/_base_/models/setr_mla.py
+++ b/configs/_base_/models/setr_mla.py
@ -1,8 +1,15 @@
 # model settings
 backbone_norm_cfg = dict(type='LN', eps=1e-6, requires_grad=True)
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained='pretrain/jx_vit_large_p16_384-b3be5167.pth',
    backbone=dict(
        type='VisionTransformer',
--- a/configs/_base_/models/setr_naive.py
+++ b/configs/_base_/models/setr_naive.py
@ -1,8 +1,15 @@
 # model settings
 backbone_norm_cfg = dict(type='LN', eps=1e-6, requires_grad=True)
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained='pretrain/jx_vit_large_p16_384-b3be5167.pth',
    backbone=dict(
        type='VisionTransformer',
--- a/configs/_base_/models/setr_pup.py
+++ b/configs/_base_/models/setr_pup.py
@ -1,8 +1,15 @@
 # model settings
 backbone_norm_cfg = dict(type='LN', eps=1e-6, requires_grad=True)
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained='pretrain/jx_vit_large_p16_384-b3be5167.pth',
    backbone=dict(
        type='VisionTransformer',
--- a/configs/_base_/models/stdc.py
+++ b/configs/_base_/models/stdc.py
@ -1,6 +1,13 @@
 norm_cfg = dict(type='BN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained=None,
    backbone=dict(
        type='STDCContextPathNet',
--- a/configs/_base_/models/twins_pcpvt-s_fpn.py
+++ b/configs/_base_/models/twins_pcpvt-s_fpn.py
@ -3,8 +3,15 @@ checkpoint = 'https://download.openmmlab.com/mmsegmentation/v0.5/pretrain/twins/
 # model settings
 backbone_norm_cfg = dict(type='LN')
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    backbone=dict(
        type='PCPVT',
        init_cfg=dict(type='Pretrained', checkpoint=checkpoint),
--- a/configs/_base_/models/twins_pcpvt-s_upernet.py
+++ b/configs/_base_/models/twins_pcpvt-s_upernet.py
@ -3,8 +3,15 @@ checkpoint = 'https://download.openmmlab.com/mmsegmentation/v0.5/pretrain/twins/
 # model settings
 backbone_norm_cfg = dict(type='LN')
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    backbone=dict(
        type='PCPVT',
        init_cfg=dict(type='Pretrained', checkpoint=checkpoint),
--- a/configs/_base_/models/upernet_beit.py
+++ b/configs/_base_/models/upernet_beit.py
@ -1,6 +1,13 @@
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained=None,
    backbone=dict(
        type='BEiT',
--- a/configs/_base_/models/upernet_convnext.py
+++ b/configs/_base_/models/upernet_convnext.py
@ -1,8 +1,15 @@
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 custom_imports = dict(imports='mmcls.models', allow_failed_imports=False)
 checkpoint_file = 'https://download.openmmlab.com/mmclassification/v0/convnext/downstream/convnext-base_3rdparty_32xb128-noema_in1k_20220301-2a0ee547.pth'  # noqa
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained=None,
    backbone=dict(
        type='mmcls.ConvNeXt',
--- a/configs/_base_/models/upernet_mae.py
+++ b/configs/_base_/models/upernet_mae.py
@ -1,6 +1,13 @@
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained=None,
    backbone=dict(
        type='MAE',
--- a/configs/_base_/models/upernet_r50.py
+++ b/configs/_base_/models/upernet_r50.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained='open-mmlab://resnet50_v1c',
    backbone=dict(
        type='ResNetV1c',
--- a/configs/_base_/models/upernet_swin.py
+++ b/configs/_base_/models/upernet_swin.py
@ -1,8 +1,15 @@
 # model settings
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 backbone_norm_cfg = dict(type='LN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained=None,
    backbone=dict(
        type='SwinTransformer',
--- a/configs/_base_/models/upernet_vit-b16_ln_mln.py
+++ b/configs/_base_/models/upernet_vit-b16_ln_mln.py
@ -1,7 +1,14 @@
 # model settings
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 preprocess_cfg = dict(
    mean=[123.675, 116.28, 103.53],
    std=[58.395, 57.12, 57.375],
    to_rgb=True,
    pad_val=0,
    seg_pad_val=255)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    pretrained='pretrain/jx_vit_base_p16_224-80ecf9dd.pth',
    backbone=dict(
        type='VisionTransformer',
--- a/configs/ann/ann_r50-d8_512x1024_40k_cityscapes.py
+++ b/configs/ann/ann_r50-d8_512x1024_40k_cityscapes.py
@ -2,3 +2,6 @@ _base_ = [
    '../_base_/models/ann_r50-d8.py', '../_base_/datasets/cityscapes.py',
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_40k.py'
 ]
 crop_size = (512, 1024)
 preprocess_cfg = dict(size=crop_size)
 model = dict(preprocess_cfg=preprocess_cfg)
--- a/configs/ann/ann_r50-d8_512x1024_80k_cityscapes.py
+++ b/configs/ann/ann_r50-d8_512x1024_80k_cityscapes.py
@ -2,3 +2,6 @@ _base_ = [
    '../_base_/models/ann_r50-d8.py', '../_base_/datasets/cityscapes.py',
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_80k.py'
 ]
 crop_size = (512, 1024)
 preprocess_cfg = dict(size=crop_size)
 model = dict(preprocess_cfg=preprocess_cfg)
--- a/configs/ann/ann_r50-d8_512x512_160k_ade20k.py
+++ b/configs/ann/ann_r50-d8_512x512_160k_ade20k.py
@ -2,5 +2,9 @@ _base_ = [
    '../_base_/models/ann_r50-d8.py', '../_base_/datasets/ade20k.py',
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_160k.py'
 ]
 crop_size = (512, 512)
 preprocess_cfg = dict(size=crop_size)
 model = dict(
-    decode_head=dict(num_classes=150), auxiliary_head=dict(num_classes=150))
+    preprocess_cfg=preprocess_cfg,
    decode_head=dict(num_classes=150),
    auxiliary_head=dict(num_classes=150))
--- a/configs/ann/ann_r50-d8_512x512_20k_voc12aug.py
+++ b/configs/ann/ann_r50-d8_512x512_20k_voc12aug.py
@ -2,5 +2,9 @@ _base_ = [
    '../_base_/models/ann_r50-d8.py', '../_base_/datasets/pascal_voc12_aug.py',
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_20k.py'
 ]
 crop_size = (512, 512)
 preprocess_cfg = dict(size=crop_size)
 model = dict(
-    decode_head=dict(num_classes=21), auxiliary_head=dict(num_classes=21))
+    preprocess_cfg=preprocess_cfg,
    decode_head=dict(num_classes=21),
    auxiliary_head=dict(num_classes=21))
--- a/configs/ann/ann_r50-d8_512x512_40k_voc12aug.py
+++ b/configs/ann/ann_r50-d8_512x512_40k_voc12aug.py
@ -2,5 +2,9 @@ _base_ = [
    '../_base_/models/ann_r50-d8.py', '../_base_/datasets/pascal_voc12_aug.py',
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_40k.py'
 ]
 crop_size = (512, 512)
 preprocess_cfg = dict(size=crop_size)
 model = dict(
-    decode_head=dict(num_classes=21), auxiliary_head=dict(num_classes=21))
+    preprocess_cfg=preprocess_cfg,
    decode_head=dict(num_classes=21),
    auxiliary_head=dict(num_classes=21))
--- a/configs/ann/ann_r50-d8_512x512_80k_ade20k.py
+++ b/configs/ann/ann_r50-d8_512x512_80k_ade20k.py
@ -2,5 +2,9 @@ _base_ = [
    '../_base_/models/ann_r50-d8.py', '../_base_/datasets/ade20k.py',
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_80k.py'
 ]
 crop_size = (512, 512)
 preprocess_cfg = dict(size=crop_size)
 model = dict(
-    decode_head=dict(num_classes=150), auxiliary_head=dict(num_classes=150))
+    preprocess_cfg=preprocess_cfg,
    decode_head=dict(num_classes=150),
    auxiliary_head=dict(num_classes=150))
--- a/configs/ann/ann_r50-d8_769x769_40k_cityscapes.py
+++ b/configs/ann/ann_r50-d8_769x769_40k_cityscapes.py
@ -3,7 +3,10 @@ _base_ = [
    '../_base_/datasets/cityscapes_769x769.py', '../_base_/default_runtime.py',
    '../_base_/schedules/schedule_40k.py'
 ]
 crop_size = (769, 769)
 preprocess_cfg = dict(size=crop_size)
 model = dict(
    preprocess_cfg=preprocess_cfg,
    decode_head=dict(align_corners=True),
    auxiliary_head=dict(align_corners=True),
    test_cfg=dict(mode='slide', crop_size=(769, 769), stride=(513, 513)))
--- a/configs/ann/ann_r50-d8_769x769_80k_cityscapes.py
+++ b/configs/ann/ann_r50-d8_769x769_80k_cityscapes.py
@ -3,7 +3,10 @@ _base_ = [
    '../_base_/datasets/cityscapes_769x769.py', '../_base_/default_runtime.py',
    '../_base_/schedules/schedule_80k.py'
 ]
 crop_size = (769, 769)
 preprocess_cfg = dict(size=crop_size)
 model = dict(
    preprocess_cfg=preprocess_cfg,
    decode_head=dict(align_corners=True),
    auxiliary_head=dict(align_corners=True),
    test_cfg=dict(mode='slide', crop_size=(769, 769), stride=(513, 513)))
--- a/configs/apcnet/apcnet_r50-d8_512x1024_40k_cityscapes.py
+++ b/configs/apcnet/apcnet_r50-d8_512x1024_40k_cityscapes.py
@ -2,3 +2,6 @@ _base_ = [
    '../_base_/models/apcnet_r50-d8.py', '../_base_/datasets/cityscapes.py',
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_40k.py'
 ]
 crop_size = (512, 1024)
 preprocess_cfg = dict(size=crop_size)
 model = dict(preprocess_cfg=preprocess_cfg)
--- a/configs/apcnet/apcnet_r50-d8_512x1024_80k_cityscapes.py
+++ b/configs/apcnet/apcnet_r50-d8_512x1024_80k_cityscapes.py
@ -2,3 +2,6 @@ _base_ = [
    '../_base_/models/apcnet_r50-d8.py', '../_base_/datasets/cityscapes.py',
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_80k.py'
 ]
 crop_size = (512, 1024)
 preprocess_cfg = dict(size=crop_size)
 model = dict(preprocess_cfg=preprocess_cfg)
--- a/configs/apcnet/apcnet_r50-d8_512x512_160k_ade20k.py
+++ b/configs/apcnet/apcnet_r50-d8_512x512_160k_ade20k.py
@ -2,5 +2,9 @@ _base_ = [
    '../_base_/models/apcnet_r50-d8.py', '../_base_/datasets/ade20k.py',
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_160k.py'
 ]
 crop_size = (512, 512)
 preprocess_cfg = dict(size=crop_size)
 model = dict(
-    decode_head=dict(num_classes=150), auxiliary_head=dict(num_classes=150))
+    preprocess_cfg=preprocess_cfg,
    decode_head=dict(num_classes=150),
    auxiliary_head=dict(num_classes=150))
--- a/configs/apcnet/apcnet_r50-d8_512x512_80k_ade20k.py
+++ b/configs/apcnet/apcnet_r50-d8_512x512_80k_ade20k.py
@ -2,5 +2,9 @@ _base_ = [
    '../_base_/models/apcnet_r50-d8.py', '../_base_/datasets/ade20k.py',
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_80k.py'
 ]
 crop_size = (512, 512)
 preprocess_cfg = dict(size=crop_size)
 model = dict(
-    decode_head=dict(num_classes=150), auxiliary_head=dict(num_classes=150))
+    preprocess_cfg=preprocess_cfg,
    decode_head=dict(num_classes=150),
    auxiliary_head=dict(num_classes=150))
--- a/configs/apcnet/apcnet_r50-d8_769x769_40k_cityscapes.py
+++ b/configs/apcnet/apcnet_r50-d8_769x769_40k_cityscapes.py
@ -3,7 +3,10 @@ _base_ = [
    '../_base_/datasets/cityscapes_769x769.py', '../_base_/default_runtime.py',
    '../_base_/schedules/schedule_40k.py'
 ]
 crop_size = (769, 769)
 preprocess_cfg = dict(size=crop_size)
 model = dict(
    preprocess_cfg=preprocess_cfg,
    decode_head=dict(align_corners=True),
    auxiliary_head=dict(align_corners=True),
    test_cfg=dict(mode='slide', crop_size=(769, 769), stride=(513, 513)))
--- a/configs/apcnet/apcnet_r50-d8_769x769_80k_cityscapes.py
+++ b/configs/apcnet/apcnet_r50-d8_769x769_80k_cityscapes.py
@ -3,7 +3,10 @@ _base_ = [
    '../_base_/datasets/cityscapes_769x769.py', '../_base_/default_runtime.py',
    '../_base_/schedules/schedule_80k.py'
 ]
 crop_size = (769, 769)
 preprocess_cfg = dict(size=crop_size)
 model = dict(
    preprocess_cfg=preprocess_cfg,
    decode_head=dict(align_corners=True),
    auxiliary_head=dict(align_corners=True),
    test_cfg=dict(mode='slide', crop_size=(769, 769), stride=(513, 513)))
--- a/configs/beit/upernet_beit-base_640x640_160k_ade20k_ms.py
+++ b/configs/beit/upernet_beit-base_640x640_160k_ade20k_ms.py
@ -1,8 +1,5 @@
 _base_ = './upernet_beit-base_8x2_640x640_160k_ade20k.py'
 img_norm_cfg = dict(
    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
 test_pipeline = [
    dict(type='LoadImageFromFile'),
    # TODO: Refactor 'MultiScaleFlipAug' which supports
--- a/configs/beit/upernet_beit-base_8x2_640x640_160k_ade20k.py
+++ b/configs/beit/upernet_beit-base_8x2_640x640_160k_ade20k.py
@ -2,8 +2,10 @@ _base_ = [
    '../_base_/models/upernet_beit.py', '../_base_/datasets/ade20k_640x640.py',
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_160k.py'
 ]
-
+crop_size = (640, 640)
 preprocess_cfg = dict(size=crop_size)
 model = dict(
    preprocess_cfg=preprocess_cfg,
    pretrained='pretrain/beit_base_patch16_224_pt22k_ft22k.pth',
    test_cfg=dict(mode='slide', crop_size=(640, 640), stride=(426, 426)))
--- a/configs/beit/upernet_beit-large_fp16_640x640_160k_ade20k_ms.py
+++ b/configs/beit/upernet_beit-large_fp16_640x640_160k_ade20k_ms.py
@ -1,8 +1,5 @@
 _base_ = './upernet_beit-large_fp16_8x1_640x640_160k_ade20k.py'
 img_norm_cfg = dict(
    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
 test_pipeline = [
    dict(type='LoadImageFromFile'),
    # TODO: Refactor 'MultiScaleFlipAug' which supports
--- a/configs/beit/upernet_beit-large_fp16_8x1_640x640_160k_ade20k.py
+++ b/configs/beit/upernet_beit-large_fp16_8x1_640x640_160k_ade20k.py
@ -2,8 +2,10 @@ _base_ = [
    '../_base_/models/upernet_beit.py', '../_base_/datasets/ade20k_640x640.py',
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_320k.py'
 ]
-
+crop_size = (640, 640)
 preprocess_cfg = dict(size=crop_size)
 model = dict(
    preprocess_cfg=preprocess_cfg,
    pretrained='pretrain/beit_large_patch16_224_pt22k_ft22k.pth',
    backbone=dict(
        type='BEiT',
--- a/configs/bisenetv1/bisenetv1_r101-d32_lr5e-3_4x4_512x512_160k_coco-stuff164k.py
+++ b/configs/bisenetv1/bisenetv1_r101-d32_lr5e-3_4x4_512x512_160k_coco-stuff164k.py
@ -3,7 +3,10 @@ _base_ = [
    '../_base_/datasets/coco-stuff164k.py', '../_base_/default_runtime.py',
    '../_base_/schedules/schedule_160k.py'
 ]
 crop_size = (512, 512)
 preprocess_cfg = dict(size=crop_size)
 model = dict(
    preprocess_cfg=preprocess_cfg,
    backbone=dict(
        context_channels=(512, 1024, 2048),
        spatial_channels=(256, 256, 256, 512),
--- a/configs/bisenetv1/bisenetv1_r18-d32_4x4_1024x1024_160k_cityscapes.py
+++ b/configs/bisenetv1/bisenetv1_r18-d32_4x4_1024x1024_160k_cityscapes.py
@ -3,6 +3,9 @@ _base_ = [
    '../_base_/datasets/cityscapes_1024x1024.py',
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_160k.py'
 ]
 crop_size = (1024, 1024)
 preprocess_cfg = dict(size=crop_size)
 model = dict(preprocess_cfg=preprocess_cfg)
 param_scheduler = [
    dict(type='LinearLR', by_epoch=False, start_factor=0.1, begin=0, end=1000),
    dict(
--- a/configs/bisenetv1/bisenetv1_r18-d32_in1k-pre_4x4_1024x1024_160k_cityscapes.py
+++ b/configs/bisenetv1/bisenetv1_r18-d32_in1k-pre_4x4_1024x1024_160k_cityscapes.py
@ -3,7 +3,10 @@ _base_ = [
    '../_base_/datasets/cityscapes_1024x1024.py',
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_160k.py'
 ]
 crop_size = (1024, 1024)
 preprocess_cfg = dict(size=crop_size)
 model = dict(
    preprocess_cfg=preprocess_cfg,
    backbone=dict(
        backbone_cfg=dict(
            init_cfg=dict(
--- a/configs/bisenetv1/bisenetv1_r18-d32_in1k-pre_lr5e-3_4x4_512x512_160k_coco-stuff164k.py
+++ b/configs/bisenetv1/bisenetv1_r18-d32_in1k-pre_lr5e-3_4x4_512x512_160k_coco-stuff164k.py
@ -1,6 +1,10 @@
 _base_ = './bisenetv1_r18-d32_lr5e-3_4x4_512x512_160k_coco-stuff164k.py'
 crop_size = (512, 512)
 preprocess_cfg = dict(size=crop_size)
 model = dict(
    preprocess_cfg=preprocess_cfg,
    backbone=dict(
        backbone_cfg=dict(
            init_cfg=dict(
-                type='Pretrained', checkpoint='open-mmlab://resnet18_v1c'))), )
+                type='Pretrained', checkpoint='open-mmlab://resnet18_v1c'))),
 )
--- a/configs/bisenetv1/bisenetv1_r18-d32_lr5e-3_4x4_512x512_160k_coco-stuff164k.py
+++ b/configs/bisenetv1/bisenetv1_r18-d32_lr5e-3_4x4_512x512_160k_coco-stuff164k.py
@ -3,7 +3,10 @@ _base_ = [
    '../_base_/datasets/coco-stuff164k.py', '../_base_/default_runtime.py',
    '../_base_/schedules/schedule_160k.py'
 ]
 crop_size = (512, 512)
 preprocess_cfg = dict(size=crop_size)
 model = dict(
    preprocess_cfg=preprocess_cfg,
    decode_head=dict(num_classes=171),
    auxiliary_head=[
        dict(num_classes=171),
--- a/configs/bisenetv1/bisenetv1_r50-d32_4x4_1024x1024_160k_cityscapes.py
+++ b/configs/bisenetv1/bisenetv1_r50-d32_4x4_1024x1024_160k_cityscapes.py
@ -4,8 +4,11 @@ _base_ = [
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_160k.py'
 ]
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 crop_size = (1024, 1024)
 preprocess_cfg = dict(size=crop_size)
 model = dict(
    type='EncoderDecoder',
    preprocess_cfg=preprocess_cfg,
    backbone=dict(
        type='BiSeNetV1',
        context_channels=(512, 1024, 2048),
--- a/configs/bisenetv1/bisenetv1_r50-d32_lr5e-3_4x4_512x512_160k_coco-stuff164k.py
+++ b/configs/bisenetv1/bisenetv1_r50-d32_lr5e-3_4x4_512x512_160k_coco-stuff164k.py
@ -3,7 +3,10 @@ _base_ = [
    '../_base_/datasets/coco-stuff164k.py', '../_base_/default_runtime.py',
    '../_base_/schedules/schedule_160k.py'
 ]
 crop_size = (512, 512)
 preprocess_cfg = dict(size=crop_size)
 model = dict(
    preprocess_cfg=preprocess_cfg,
    backbone=dict(
        context_channels=(512, 1024, 2048),
        spatial_channels=(256, 256, 256, 512),
--- a/configs/bisenetv2/bisenetv2_fcn_4x4_1024x1024_160k_cityscapes.py
+++ b/configs/bisenetv2/bisenetv2_fcn_4x4_1024x1024_160k_cityscapes.py
@ -3,6 +3,9 @@ _base_ = [
    '../_base_/datasets/cityscapes_1024x1024.py',
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_160k.py'
 ]
 crop_size = (1024, 1024)
 preprocess_cfg = dict(size=crop_size)
 model = dict(preprocess_cfg=preprocess_cfg)
 param_scheduler = [
    dict(type='LinearLR', by_epoch=False, start_factor=0.1, begin=0, end=1000),
    dict(
--- a/configs/bisenetv2/bisenetv2_fcn_4x8_1024x1024_160k_cityscapes.py
+++ b/configs/bisenetv2/bisenetv2_fcn_4x8_1024x1024_160k_cityscapes.py
@ -3,6 +3,9 @@ _base_ = [
    '../_base_/datasets/cityscapes_1024x1024.py',
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_160k.py'
 ]
 crop_size = (1024, 1024)
 preprocess_cfg = dict(size=crop_size)
 model = dict(preprocess_cfg=preprocess_cfg)
 param_scheduler = [
    dict(type='LinearLR', by_epoch=False, start_factor=0.1, begin=0, end=1000),
    dict(
--- a/configs/bisenetv2/bisenetv2_fcn_ohem_4x4_1024x1024_160k_cityscapes.py
+++ b/configs/bisenetv2/bisenetv2_fcn_ohem_4x4_1024x1024_160k_cityscapes.py
@ -3,8 +3,11 @@ _base_ = [
    '../_base_/datasets/cityscapes_1024x1024.py',
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_160k.py'
 ]
 crop_size = (1024, 1024)
 preprocess_cfg = dict(size=crop_size)
 norm_cfg = dict(type='SyncBN', requires_grad=True)
 models = dict(
    preprocess_cfg=preprocess_cfg,
    decode_head=dict(
        sampler=dict(type='OHEMPixelSampler', thresh=0.7, min_kept=10000)),
    auxiliary_head=[
--- a/configs/ccnet/ccnet_r50-d8_512x1024_40k_cityscapes.py
+++ b/configs/ccnet/ccnet_r50-d8_512x1024_40k_cityscapes.py
@ -2,3 +2,6 @@ _base_ = [
    '../_base_/models/ccnet_r50-d8.py', '../_base_/datasets/cityscapes.py',
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_40k.py'
 ]
 crop_size = (512, 1024)
 preprocess_cfg = dict(size=crop_size)
 model = dict(preprocess_cfg=preprocess_cfg)
--- a/configs/ccnet/ccnet_r50-d8_512x1024_80k_cityscapes.py
+++ b/configs/ccnet/ccnet_r50-d8_512x1024_80k_cityscapes.py
@ -2,3 +2,6 @@ _base_ = [
    '../_base_/models/ccnet_r50-d8.py', '../_base_/datasets/cityscapes.py',
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_80k.py'
 ]
 crop_size = (512, 1024)
 preprocess_cfg = dict(size=crop_size)
 model = dict(preprocess_cfg=preprocess_cfg)
--- a/configs/ccnet/ccnet_r50-d8_512x512_160k_ade20k.py
+++ b/configs/ccnet/ccnet_r50-d8_512x512_160k_ade20k.py
@ -2,5 +2,9 @@ _base_ = [
    '../_base_/models/ccnet_r50-d8.py', '../_base_/datasets/ade20k.py',
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_160k.py'
 ]
 crop_size = (512, 512)
 preprocess_cfg = dict(size=crop_size)
 model = dict(
-    decode_head=dict(num_classes=150), auxiliary_head=dict(num_classes=150))
+    preprocess_cfg=preprocess_cfg,
    decode_head=dict(num_classes=150),
    auxiliary_head=dict(num_classes=150))
--- a/configs/ccnet/ccnet_r50-d8_512x512_20k_voc12aug.py
+++ b/configs/ccnet/ccnet_r50-d8_512x512_20k_voc12aug.py
@ -3,5 +3,9 @@ _base_ = [
    '../_base_/datasets/pascal_voc12_aug.py', '../_base_/default_runtime.py',
    '../_base_/schedules/schedule_20k.py'
 ]
 crop_size = (512, 512)
 preprocess_cfg = dict(size=crop_size)
 model = dict(
-    decode_head=dict(num_classes=21), auxiliary_head=dict(num_classes=21))
+    preprocess_cfg=preprocess_cfg,
    decode_head=dict(num_classes=21),
    auxiliary_head=dict(num_classes=21))
--- a/configs/ccnet/ccnet_r50-d8_512x512_40k_voc12aug.py
+++ b/configs/ccnet/ccnet_r50-d8_512x512_40k_voc12aug.py
@ -3,5 +3,9 @@ _base_ = [
    '../_base_/datasets/pascal_voc12_aug.py', '../_base_/default_runtime.py',
    '../_base_/schedules/schedule_40k.py'
 ]
 crop_size = (512, 512)
 preprocess_cfg = dict(size=crop_size)
 model = dict(
-    decode_head=dict(num_classes=21), auxiliary_head=dict(num_classes=21))
+    preprocess_cfg=preprocess_cfg,
    decode_head=dict(num_classes=21),
    auxiliary_head=dict(num_classes=21))
--- a/Show More
+++ b/Show More