[Refactor] Refactor lr_config

2025-06-03 22:03:48 +08:00 · 2022-06-08 09:25:00 +00:00 · 2022-06-08 09:25:00 +00:00 · fcb9cb4571
commit fcb9cb4571
parent 6b34566eba
58 changed files with 522 additions and 258 deletions
--- a/configs/_base_/schedules/schedule_160k.py
+++ b/configs/_base_/schedules/schedule_160k.py
@ -2,13 +2,20 @@
 optimizer = dict(type='SGD', lr=0.01, momentum=0.9, weight_decay=0.0005)
 optim_wrapper = dict(type='OptimWrapper', optimizer=optimizer)
 # learning policy
-lr_config = dict(policy='poly', power=0.9, min_lr=1e-4, by_epoch=False)
+param_scheduler = [
+    dict(
+        type='PolyLR',
+        eta_min=1e-4,
+        power=0.9,
+        begin=0,
+        end=160000,
+        by_epoch=False)
+]
 # training schedule for 160k
 train_cfg = dict(
    type='IterBasedTrainLoop', max_iters=160000, val_interval=16000)
 val_cfg = dict(type='ValLoop')
 test_cfg = dict(type='TestLoop')
-evaluation = dict(interval=16000, metric='mIoU', pre_eval=True)
 default_hooks = dict(
    optimizer=dict(type='OptimizerHook', grad_clip=None),
    timer=dict(type='IterTimerHook'),
--- a/configs/_base_/schedules/schedule_20k.py
+++ b/configs/_base_/schedules/schedule_20k.py
@ -2,12 +2,19 @@
 optimizer = dict(type='SGD', lr=0.01, momentum=0.9, weight_decay=0.0005)
 optim_wrapper = dict(type='OptimWrapper', optimizer=optimizer)
 # learning policy
-lr_config = dict(policy='poly', power=0.9, min_lr=1e-4, by_epoch=False)
+param_scheduler = [
+    dict(
+        type='PolyLR',
+        eta_min=1e-4,
+        power=0.9,
+        begin=0,
+        end=20000,
+        by_epoch=False)
+]
 # training schedule for 20k
 train_cfg = dict(type='IterBasedTrainLoop', max_iters=20000, val_interval=2000)
 val_cfg = dict(type='ValLoop')
 test_cfg = dict(type='TestLoop')
-evaluation = dict(interval=2000, metric='mIoU', pre_eval=True)
 default_hooks = dict(
    optimizer=dict(type='OptimizerHook', grad_clip=None),
    timer=dict(type='IterTimerHook'),
--- a/configs/_base_/schedules/schedule_320k.py
+++ b/configs/_base_/schedules/schedule_320k.py
@ -2,13 +2,20 @@
 optimizer = dict(type='SGD', lr=0.01, momentum=0.9, weight_decay=0.0005)
 optim_wrapper = dict(type='OptimWrapper', optimizer=optimizer)
 # learning policy
-lr_config = dict(policy='poly', power=0.9, min_lr=1e-4, by_epoch=False)
+param_scheduler = [
+    dict(
+        type='PolyLR',
+        eta_min=1e-4,
+        power=0.9,
+        begin=0,
+        end=320000,
+        by_epoch=False)
+]
 # training schedule for 320k
 train_cfg = dict(
    type='IterBasedTrainLoop', max_iters=320000, val_interval=32000)
 val_cfg = dict(type='ValLoop')
 test_cfg = dict(type='TestLoop')
-evaluation = dict(interval=32000, metric='mIoU')
 default_hooks = dict(
    optimizer=dict(type='OptimizerHook', grad_clip=None),
    timer=dict(type='IterTimerHook'),
--- a/configs/_base_/schedules/schedule_40k.py
+++ b/configs/_base_/schedules/schedule_40k.py
@ -2,12 +2,19 @@
 optimizer = dict(type='SGD', lr=0.01, momentum=0.9, weight_decay=0.0005)
 optim_wrapper = dict(type='OptimWrapper', optimizer=optimizer)
 # learning policy
-lr_config = dict(policy='poly', power=0.9, min_lr=1e-4, by_epoch=False)
+param_scheduler = [
+    dict(
+        type='PolyLR',
+        eta_min=1e-4,
+        power=0.9,
+        begin=0,
+        end=40000,
+        by_epoch=False)
+]
 # training schedule for 40k
 train_cfg = dict(type='IterBasedTrainLoop', max_iters=40000, val_interval=4000)
 val_cfg = dict(type='ValLoop')
 test_cfg = dict(type='TestLoop')
-evaluation = dict(interval=4000, metric='mIoU', pre_eval=True)
 default_hooks = dict(
    optimizer=dict(type='OptimizerHook', grad_clip=None),
    timer=dict(type='IterTimerHook'),
--- a/configs/_base_/schedules/schedule_80k.py
+++ b/configs/_base_/schedules/schedule_80k.py
@ -2,12 +2,19 @@
 optimizer = dict(type='SGD', lr=0.01, momentum=0.9, weight_decay=0.0005)
 optim_wrapper = dict(type='OptimWrapper', optimizer=optimizer)
 # learning policy
-lr_config = dict(policy='poly', power=0.9, min_lr=1e-4, by_epoch=False)
+param_scheduler = [
+    dict(
+        type='PolyLR',
+        eta_min=1e-4,
+        power=0.9,
+        begin=0,
+        end=80000,
+        by_epoch=False)
+]
 # training schedule for 80k
 train_cfg = dict(type='IterBasedTrainLoop', max_iters=80000, val_interval=8000)
 val_cfg = dict(type='ValLoop')
 test_cfg = dict(type='TestLoop')
-evaluation = dict(interval=8000, metric='mIoU', pre_eval=True)
 default_hooks = dict(
    optimizer=dict(type='OptimizerHook', grad_clip=None),
    timer=dict(type='IterTimerHook'),
--- a/configs/beit/upernet_beit-base_8x2_640x640_160k_ade20k.py
+++ b/configs/beit/upernet_beit-base_8x2_640x640_160k_ade20k.py
@ -20,15 +20,18 @@ optim_wrapper = dict(
    constructor='LayerDecayOptimizerConstructor',
    paramwise_cfg=dict(num_layers=12, layer_decay_rate=0.9))

-lr_config = dict(
-    _delete_=True,
-    policy='poly',
-    warmup='linear',
-    warmup_iters=1500,
-    warmup_ratio=1e-6,
+param_scheduler = [
+    dict(
+        type='LinearLR', start_factor=1e-6, by_epoch=False, begin=0, end=1500),
+    dict(
+        type='PolyLR',
        power=1.0,
-    min_lr=0.0,
-    by_epoch=False)
+        begin=1500,
+        end=160000,
+        eta_min=0.0,
+        by_epoch=False,
+    )
+]

 # By default, models are trained on 8 GPUs with 2 images per GPU
 train_dataloader = dict(batch_size=2)
--- a/configs/beit/upernet_beit-large_fp16_8x1_640x640_160k_ade20k.py
+++ b/configs/beit/upernet_beit-large_fp16_8x1_640x640_160k_ade20k.py
@ -33,15 +33,19 @@ optim_wrapper = dict(
    optimizer=optimizer,
    constructor='LayerDecayOptimizerConstructor',
    paramwise_cfg=dict(num_layers=24, layer_decay_rate=0.95))
-lr_config = dict(
-    _delete_=True,
-    policy='poly',
-    warmup='linear',
-    warmup_iters=3000,
-    warmup_ratio=1e-6,
+
+param_scheduler = [
+    dict(
+        type='LinearLR', start_factor=1e-6, by_epoch=False, begin=0, end=3000),
+    dict(
+        type='PolyLR',
        power=1.0,
-    min_lr=0.0,
-    by_epoch=False)
+        begin=3000,
+        end=160000,
+        eta_min=0.0,
+        by_epoch=False,
+    )
+]

 train_dataloader = dict(batch_size=1)
 val_dataloader = dict(batch_size=1)
--- a/configs/bisenetv1/bisenetv1_r101-d32_lr5e-3_4x4_512x512_160k_coco-stuff164k.py
+++ b/configs/bisenetv1/bisenetv1_r101-d32_lr5e-3_4x4_512x512_160k_coco-stuff164k.py
@ -14,7 +14,17 @@ model = dict(
        dict(in_channels=512, channels=256, num_classes=171),
        dict(in_channels=512, channels=256, num_classes=171),
    ])
-lr_config = dict(warmup='linear', warmup_iters=1000)
+param_scheduler = [
+    dict(type='LinearLR', by_epoch=False, start_factor=0.1, begin=0, end=1000),
+    dict(
+        type='PolyLR',
+        eta_min=1e-4,
+        power=0.9,
+        begin=1000,
+        end=160000,
+        by_epoch=False,
+    )
+]
 optimizer = dict(type='SGD', lr=0.005, momentum=0.9, weight_decay=0.0005)
 optim_wrapper = dict(type='OptimWrapper', optimizer=optimizer)
 train_dataloader = dict(batch_size=4, num_workers=4)
--- a/configs/bisenetv1/bisenetv1_r18-d32_4x4_1024x1024_160k_cityscapes.py
+++ b/configs/bisenetv1/bisenetv1_r18-d32_4x4_1024x1024_160k_cityscapes.py
@ -3,7 +3,17 @@ _base_ = [
    '../_base_/datasets/cityscapes_1024x1024.py',
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_160k.py'
 ]
-lr_config = dict(warmup='linear', warmup_iters=1000)
+param_scheduler = [
+    dict(type='LinearLR', by_epoch=False, start_factor=0.1, begin=0, end=1000),
+    dict(
+        type='PolyLR',
+        eta_min=1e-4,
+        power=0.9,
+        begin=1000,
+        end=160000,
+        by_epoch=False,
+    )
+]
 optimizer = dict(type='SGD', lr=0.025, momentum=0.9, weight_decay=0.0005)
 optim_wrapper = dict(type='OptimWrapper', optimizer=optimizer)
 train_dataloader = dict(batch_size=4, num_workers=4)
--- a/configs/bisenetv1/bisenetv1_r18-d32_in1k-pre_4x4_1024x1024_160k_cityscapes.py
+++ b/configs/bisenetv1/bisenetv1_r18-d32_in1k-pre_4x4_1024x1024_160k_cityscapes.py
@ -8,7 +8,17 @@ model = dict(
        backbone_cfg=dict(
            init_cfg=dict(
                type='Pretrained', checkpoint='open-mmlab://resnet18_v1c'))))
-lr_config = dict(warmup='linear', warmup_iters=1000)
+param_scheduler = [
+    dict(type='LinearLR', by_epoch=False, start_factor=0.1, begin=0, end=1000),
+    dict(
+        type='PolyLR',
+        eta_min=1e-4,
+        power=0.9,
+        begin=1000,
+        end=160000,
+        by_epoch=False,
+    )
+]
 optimizer = dict(type='SGD', lr=0.025, momentum=0.9, weight_decay=0.0005)
 optim_wrapper = dict(type='OptimWrapper', optimizer=optimizer)
 train_dataloader = dict(batch_size=4, num_workers=4)
--- a/configs/bisenetv1/bisenetv1_r18-d32_lr5e-3_4x4_512x512_160k_coco-stuff164k.py
+++ b/configs/bisenetv1/bisenetv1_r18-d32_lr5e-3_4x4_512x512_160k_coco-stuff164k.py
@ -9,6 +9,19 @@ model = dict(
        dict(num_classes=171),
        dict(num_classes=171),
    ])
-lr_config = dict(warmup='linear', warmup_iters=1000)
+param_scheduler = [
+    dict(type='LinearLR', by_epoch=False, start_factor=0.1, begin=0, end=1000),
+    dict(
+        type='PolyLR',
+        eta_min=1e-4,
+        power=0.9,
+        begin=1000,
+        end=160000,
+        by_epoch=False,
+    )
+]
 optimizer = dict(type='SGD', lr=0.005, momentum=0.9, weight_decay=0.0005)
 optim_wrapper = dict(type='OptimWrapper', optimizer=optimizer)
+train_dataloader = dict(batch_size=4, num_workers=4)
+val_dataloader = dict(batch_size=4, num_workers=4)
+test_dataloader = val_dataloader
--- a/configs/bisenetv1/bisenetv1_r50-d32_4x4_1024x1024_160k_cityscapes.py
+++ b/configs/bisenetv1/bisenetv1_r50-d32_4x4_1024x1024_160k_cityscapes.py
@ -34,7 +34,17 @@ model = dict(
            norm_cfg=norm_cfg,
            concat_input=False),
    ])
-lr_config = dict(warmup='linear', warmup_iters=1000)
+param_scheduler = [
+    dict(type='LinearLR', by_epoch=False, start_factor=0.1, begin=0, end=1000),
+    dict(
+        type='PolyLR',
+        eta_min=1e-4,
+        power=0.9,
+        begin=1000,
+        end=160000,
+        by_epoch=False,
+    )
+]
 optimizer = dict(type='SGD', lr=0.05, momentum=0.9, weight_decay=0.0005)
 optim_wrapper = dict(type='OptimWrapper', optimizer=optimizer)
 train_dataloader = dict(batch_size=4, num_workers=4)
--- a/configs/bisenetv1/bisenetv1_r50-d32_lr5e-3_4x4_512x512_160k_coco-stuff164k.py
+++ b/configs/bisenetv1/bisenetv1_r50-d32_lr5e-3_4x4_512x512_160k_coco-stuff164k.py
@ -14,6 +14,19 @@ model = dict(
        dict(in_channels=512, channels=256, num_classes=171),
        dict(in_channels=512, channels=256, num_classes=171),
    ])
-lr_config = dict(warmup='linear', warmup_iters=1000)
+param_scheduler = [
+    dict(type='LinearLR', by_epoch=False, start_factor=0.1, begin=0, end=1000),
+    dict(
+        type='PolyLR',
+        eta_min=1e-4,
+        power=0.9,
+        begin=1000,
+        end=160000,
+        by_epoch=False,
+    )
+]
 optimizer = dict(type='SGD', lr=0.005, momentum=0.9, weight_decay=0.0005)
 optim_wrapper = dict(type='OptimWrapper', optimizer=optimizer)
+train_dataloader = dict(batch_size=4, num_workers=4)
+val_dataloader = dict(batch_size=4, num_workers=4)
+test_dataloader = val_dataloader
--- a/configs/bisenetv2/bisenetv2_fcn_4x4_1024x1024_160k_cityscapes.py
+++ b/configs/bisenetv2/bisenetv2_fcn_4x4_1024x1024_160k_cityscapes.py
@ -3,7 +3,17 @@ _base_ = [
    '../_base_/datasets/cityscapes_1024x1024.py',
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_160k.py'
 ]
-lr_config = dict(warmup='linear', warmup_iters=1000)
+param_scheduler = [
+    dict(type='LinearLR', by_epoch=False, start_factor=0.1, begin=0, end=1000),
+    dict(
+        type='PolyLR',
+        eta_min=1e-4,
+        power=0.9,
+        begin=1000,
+        end=160000,
+        by_epoch=False,
+    )
+]
 optimizer = dict(type='SGD', lr=0.05, momentum=0.9, weight_decay=0.0005)
 optim_wrapper = dict(type='OptimWrapper', optimizer=optimizer)
 train_dataloader = dict(batch_size=4, num_workers=4)
--- a/configs/bisenetv2/bisenetv2_fcn_4x8_1024x1024_160k_cityscapes.py
+++ b/configs/bisenetv2/bisenetv2_fcn_4x8_1024x1024_160k_cityscapes.py
@ -3,7 +3,17 @@ _base_ = [
    '../_base_/datasets/cityscapes_1024x1024.py',
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_160k.py'
 ]
-lr_config = dict(warmup='linear', warmup_iters=1000)
+param_scheduler = [
+    dict(type='LinearLR', by_epoch=False, start_factor=0.1, begin=0, end=1000),
+    dict(
+        type='PolyLR',
+        eta_min=1e-4,
+        power=0.9,
+        begin=1000,
+        end=160000,
+        by_epoch=False,
+    )
+]
 optimizer = dict(type='SGD', lr=0.05, momentum=0.9, weight_decay=0.0005)
 optim_wrapper = dict(type='OptimWrapper', optimizer=optimizer)
 train_dataloader = dict(batch_size=8, num_workers=4)
--- a/configs/bisenetv2/bisenetv2_fcn_ohem_4x4_1024x1024_160k_cityscapes.py
+++ b/configs/bisenetv2/bisenetv2_fcn_ohem_4x4_1024x1024_160k_cityscapes.py
@ -62,7 +62,17 @@ models = dict(
                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
    ],
 )
-lr_config = dict(warmup='linear', warmup_iters=1000)
+param_scheduler = [
+    dict(type='LinearLR', by_epoch=False, start_factor=0.1, begin=0, end=1000),
+    dict(
+        type='PolyLR',
+        eta_min=1e-4,
+        power=0.9,
+        begin=1000,
+        end=160000,
+        by_epoch=False,
+    )
+]
 optimizer = dict(type='SGD', lr=0.05, momentum=0.9, weight_decay=0.0005)
 optim_wrapper = dict(type='OptimWrapper', optimizer=optimizer)
 train_dataloader = dict(batch_size=4, num_workers=4)
--- a/configs/cgnet/cgnet_512x1024_60k_cityscapes.py
+++ b/configs/cgnet/cgnet_512x1024_60k_cityscapes.py
@ -4,7 +4,15 @@ _base_ = ['../_base_/models/cgnet.py', '../_base_/default_runtime.py']
 optimizer = dict(type='Adam', lr=0.001, eps=1e-08, weight_decay=0.0005)
 optim_wrapper = dict(type='OptimWrapper', optimizer=optimizer)
 # learning policy
-lr_config = dict(policy='poly', power=0.9, min_lr=1e-4, by_epoch=False)
+param_scheduler = [
+    dict(
+        type='PolyLR',
+        eta_min=1e-4,
+        power=0.9,
+        by_epoch=False,
+        begin=0,
+        end=60000)
+]
 # runtime settings
 total_iters = 60000
 train_cfg = dict(
@ -12,7 +20,6 @@ train_cfg = dict(
 val_cfg = dict(type='ValLoop')
 test_cfg = dict(type='TestLoop')
 default_hooks = dict(checkpoint=dict(by_epoch=False, interval=4000))
-evaluation = dict(interval=4000, metric='mIoU')

 # dataset settings
 dataset_type = 'CityscapesDataset'
--- a/configs/cgnet/cgnet_680x680_60k_cityscapes.py
+++ b/configs/cgnet/cgnet_680x680_60k_cityscapes.py
@ -7,7 +7,15 @@ _base_ = [
 optimizer = dict(type='Adam', lr=0.001, eps=1e-08, weight_decay=0.0005)
 optim_wrapper = dict(type='OptimWrapper', optimizer=optimizer)
 # learning policy
-lr_config = dict(policy='poly', power=0.9, min_lr=1e-4, by_epoch=False)
+param_scheduler = [
+    dict(
+        type='PolyLR',
+        eta_min=1e-4,
+        power=0.9,
+        by_epoch=False,
+        begin=0,
+        end=60000)
+]
 # runtime settings
 total_iters = 60000
 train_cfg = dict(
@ -15,7 +23,6 @@ train_cfg = dict(
 val_cfg = dict(type='ValLoop')
 test_cfg = dict(type='TestLoop')
 default_hooks = dict(checkpoint=dict(by_epoch=False, interval=4000))
-evaluation = dict(interval=4000, metric='mIoU')

 img_norm_cfg = dict(
    mean=[72.39239876, 82.90891754, 73.15835921], std=[1, 1, 1], to_rgb=True)
--- a/configs/convnext/upernet_convnext_base_fp16_512x512_160k_ade20k.py
+++ b/configs/convnext/upernet_convnext_base_fp16_512x512_160k_ade20k.py
@ -26,15 +26,18 @@ optim_wrapper = dict(
    },
    constructor='LearningRateDecayOptimizerConstructor')

-lr_config = dict(
-    _delete_=True,
-    policy='poly',
-    warmup='linear',
-    warmup_iters=1500,
-    warmup_ratio=1e-6,
+param_scheduler = [
+    dict(
+        type='LinearLR', start_factor=1e-6, by_epoch=False, begin=0, end=1500),
+    dict(
+        type='PolyLR',
        power=1.0,
-    min_lr=0.0,
-    by_epoch=False)
+        begin=1500,
+        end=160000,
+        eta_min=0.0,
+        by_epoch=False,
+    )
+]

 # By default, models are trained on 8 GPUs with 2 images per GPU
 train_dataloader = dict(batch_size=2)
--- a/configs/convnext/upernet_convnext_base_fp16_640x640_160k_ade20k.py
+++ b/configs/convnext/upernet_convnext_base_fp16_640x640_160k_ade20k.py
@ -41,15 +41,18 @@ optim_wrapper = dict(
    },
    constructor='LearningRateDecayOptimizerConstructor')

-lr_config = dict(
-    _delete_=True,
-    policy='poly',
-    warmup='linear',
-    warmup_iters=1500,
-    warmup_ratio=1e-6,
+param_scheduler = [
+    dict(
+        type='LinearLR', start_factor=1e-6, by_epoch=False, begin=0, end=1500),
+    dict(
+        type='PolyLR',
        power=1.0,
-    min_lr=0.0,
-    by_epoch=False)
+        begin=1500,
+        end=160000,
+        eta_min=0.0,
+        by_epoch=False,
+    )
+]

 # By default, models are trained on 8 GPUs with 2 images per GPU
 train_dataloader = dict(batch_size=2)
--- a/configs/convnext/upernet_convnext_large_fp16_640x640_160k_ade20k.py
+++ b/configs/convnext/upernet_convnext_large_fp16_640x640_160k_ade20k.py
@ -41,15 +41,18 @@ optim_wrapper = dict(
    },
    constructor='LearningRateDecayOptimizerConstructor')

-lr_config = dict(
-    _delete_=True,
-    policy='poly',
-    warmup='linear',
-    warmup_iters=1500,
-    warmup_ratio=1e-6,
+param_scheduler = [
+    dict(
+        type='LinearLR', start_factor=1e-6, by_epoch=False, begin=0, end=1500),
+    dict(
+        type='PolyLR',
        power=1.0,
-    min_lr=0.0,
-    by_epoch=False)
+        begin=1500,
+        end=160000,
+        eta_min=0.0,
+        by_epoch=False,
+    )
+]

 # By default, models are trained on 8 GPUs with 2 images per GPU
 train_dataloader = dict(batch_size=2)
--- a/configs/convnext/upernet_convnext_small_fp16_512x512_160k_ade20k.py
+++ b/configs/convnext/upernet_convnext_small_fp16_512x512_160k_ade20k.py
@ -40,15 +40,18 @@ optim_wrapper = dict(
    },
    constructor='LearningRateDecayOptimizerConstructor')

-lr_config = dict(
-    _delete_=True,
-    policy='poly',
-    warmup='linear',
-    warmup_iters=1500,
-    warmup_ratio=1e-6,
+param_scheduler = [
+    dict(
+        type='LinearLR', start_factor=1e-6, by_epoch=False, begin=0, end=1500),
+    dict(
+        type='PolyLR',
        power=1.0,
-    min_lr=0.0,
-    by_epoch=False)
+        begin=1500,
+        end=160000,
+        eta_min=0.0,
+        by_epoch=False,
+    )
+]

 # By default, models are trained on 8 GPUs with 2 images per GPU
 train_dataloader = dict(batch_size=2)
--- a/configs/convnext/upernet_convnext_tiny_fp16_512x512_160k_ade20k.py
+++ b/configs/convnext/upernet_convnext_tiny_fp16_512x512_160k_ade20k.py
@ -40,15 +40,18 @@ optim_wrapper = dict(
    },
    constructor='LearningRateDecayOptimizerConstructor')

-lr_config = dict(
-    _delete_=True,
-    policy='poly',
-    warmup='linear',
-    warmup_iters=1500,
-    warmup_ratio=1e-6,
+param_scheduler = [
+    dict(
+        type='LinearLR', start_factor=1e-6, by_epoch=False, begin=0, end=1500),
+    dict(
+        type='PolyLR',
        power=1.0,
-    min_lr=0.0,
-    by_epoch=False)
+        begin=1500,
+        end=160000,
+        eta_min=0.0,
+        by_epoch=False,
+    )
+]

 # By default, models are trained on 8 GPUs with 2 images per GPU
 train_dataloader = dict(batch_size=2)
--- a/configs/convnext/upernet_convnext_xlarge_fp16_640x640_160k_ade20k.py
+++ b/configs/convnext/upernet_convnext_xlarge_fp16_640x640_160k_ade20k.py
@ -41,15 +41,18 @@ optim_wrapper = dict(
    },
    constructor='LearningRateDecayOptimizerConstructor')

-lr_config = dict(
-    _delete_=True,
-    policy='poly',
-    warmup='linear',
-    warmup_iters=1500,
-    warmup_ratio=1e-6,
+param_scheduler = [
+    dict(
+        type='LinearLR', start_factor=1e-6, by_epoch=False, begin=0, end=1500),
+    dict(
+        type='PolyLR',
        power=1.0,
-    min_lr=0.0,
-    by_epoch=False)
+        begin=1500,
+        end=160000,
+        eta_min=0.0,
+        by_epoch=False,
+    )
+]

 # By default, models are trained on 8 GPUs with 2 images per GPU
 train_dataloader = dict(batch_size=2)
--- a/configs/dpt/dpt_vit-b16_512x512_160k_ade20k.py
+++ b/configs/dpt/dpt_vit-b16_512x512_160k_ade20k.py
@ -22,15 +22,18 @@ optim_wrapper = dict(
            'norm': dict(decay_mult=0.)
        }))

-lr_config = dict(
-    _delete_=True,
-    policy='poly',
-    warmup='linear',
-    warmup_iters=1500,
-    warmup_ratio=1e-6,
+param_scheduler = [
+    dict(
+        type='LinearLR', start_factor=1e-6, by_epoch=False, begin=0, end=1500),
+    dict(
+        type='PolyLR',
+        eta_min=0.0,
        power=1.0,
-    min_lr=0.0,
-    by_epoch=False)
+        begin=1500,
+        end=160000,
+        by_epoch=False,
+    )
+]

 # By default, models are trained on 8 GPUs with 2 images per GPU
 train_dataloader = dict(batch_size=2, num_workers=2)
--- a/configs/knet/knet_s3_deeplabv3_r50-d8_8x2_512x512_adamw_80k_ade20k.py
+++ b/configs/knet/knet_s3_deeplabv3_r50-d8_8x2_512x512_adamw_80k_ade20k.py
@ -86,14 +86,18 @@ default_hooks = dict(
        type='OptimizerHook',
        grad_clip=dict(max_norm=1, norm_type=2)))
 # learning policy
-lr_config = dict(
-    _delete_=True,
-    policy='step',
-    warmup='linear',
-    warmup_iters=1000,
-    warmup_ratio=0.001,
-    step=[60000, 72000],
-    by_epoch=False)
+param_scheduler = [
+    dict(
+        type='LinearLR', start_factor=0.001, by_epoch=False, begin=0,
+        end=1000),
+    dict(
+        type='MultiStepLR',
+        begin=1000,
+        end=80000,
+        milestones=[60000, 72000],
+        by_epoch=False,
+    )
+]
 # In K-Net implementation we use batch size 2 per GPU as default
 train_dataloader = dict(batch_size=2, num_workers=2)
 val_dataloader = dict(batch_size=2, num_workers=2)
--- a/configs/knet/knet_s3_fcn_r50-d8_8x2_512x512_adamw_80k_ade20k.py
+++ b/configs/knet/knet_s3_fcn_r50-d8_8x2_512x512_adamw_80k_ade20k.py
@ -86,14 +86,18 @@ default_hooks = dict(
        type='OptimizerHook',
        grad_clip=dict(max_norm=1, norm_type=2)))
 # learning policy
-lr_config = dict(
-    _delete_=True,
-    policy='step',
-    warmup='linear',
-    warmup_iters=1000,
-    warmup_ratio=0.001,
-    step=[60000, 72000],
-    by_epoch=False)
+param_scheduler = [
+    dict(
+        type='LinearLR', start_factor=0.001, by_epoch=False, begin=0,
+        end=1000),
+    dict(
+        type='MultiStepLR',
+        begin=1000,
+        end=80000,
+        milestones=[60000, 72000],
+        by_epoch=False,
+    )
+]
 # In K-Net implementation we use batch size 2 per GPU as default
 train_dataloader = dict(batch_size=2, num_workers=2)
 val_dataloader = dict(batch_size=2, num_workers=2)
--- a/configs/knet/knet_s3_pspnet_r50-d8_8x2_512x512_adamw_80k_ade20k.py
+++ b/configs/knet/knet_s3_pspnet_r50-d8_8x2_512x512_adamw_80k_ade20k.py
@ -85,14 +85,18 @@ default_hooks = dict(
        type='OptimizerHook',
        grad_clip=dict(max_norm=1, norm_type=2)))
 # learning policy
-lr_config = dict(
-    _delete_=True,
-    policy='step',
-    warmup='linear',
-    warmup_iters=1000,
-    warmup_ratio=0.001,
-    step=[60000, 72000],
-    by_epoch=False)
+param_scheduler = [
+    dict(
+        type='LinearLR', start_factor=0.001, by_epoch=False, begin=0,
+        end=1000),
+    dict(
+        type='MultiStepLR',
+        begin=1000,
+        end=80000,
+        milestones=[60000, 72000],
+        by_epoch=False,
+    )
+]
 # In K-Net implementation we use batch size 2 per GPU as default
 train_dataloader = dict(batch_size=2, num_workers=2)
 val_dataloader = dict(batch_size=2, num_workers=2)
--- a/configs/knet/knet_s3_upernet_r50-d8_8x2_512x512_adamw_80k_ade20k.py
+++ b/configs/knet/knet_s3_upernet_r50-d8_8x2_512x512_adamw_80k_ade20k.py
@ -86,14 +86,18 @@ default_hooks = dict(
        type='OptimizerHook',
        grad_clip=dict(max_norm=1, norm_type=2)))
 # learning policy
-lr_config = dict(
-    _delete_=True,
-    policy='step',
-    warmup='linear',
-    warmup_iters=1000,
-    warmup_ratio=0.001,
-    step=[60000, 72000],
-    by_epoch=False)
+param_scheduler = [
+    dict(
+        type='LinearLR', start_factor=0.001, by_epoch=False, begin=0,
+        end=1000),
+    dict(
+        type='MultiStepLR',
+        begin=1000,
+        end=80000,
+        milestones=[60000, 72000],
+        by_epoch=False,
+    )
+]
 # In K-Net implementation we use batch size 2 per GPU as default
 train_dataloader = dict(batch_size=2, num_workers=2)
 val_dataloader = dict(batch_size=2, num_workers=2)
--- a/configs/knet/knet_s3_upernet_swin-t_8x2_512x512_adamw_80k_ade20k.py
+++ b/configs/knet/knet_s3_upernet_swin-t_8x2_512x512_adamw_80k_ade20k.py
@ -54,14 +54,18 @@ default_hooks = dict(
        type='OptimizerHook',
        grad_clip=dict(max_norm=1, norm_type=2)))
 # learning policy
-lr_config = dict(
-    _delete_=True,
-    policy='step',
-    warmup='linear',
-    warmup_iters=1000,
-    warmup_ratio=0.001,
-    step=[60000, 72000],
-    by_epoch=False)
+param_scheduler = [
+    dict(
+        type='LinearLR', start_factor=0.001, by_epoch=False, begin=0,
+        end=1000),
+    dict(
+        type='MultiStepLR',
+        begin=1000,
+        end=80000,
+        milestones=[60000, 72000],
+        by_epoch=False,
+    )
+]
 # In K-Net implementation we use batch size 2 per GPU as default
 train_dataloader = dict(batch_size=2, num_workers=2)
 val_dataloader = dict(batch_size=2, num_workers=2)
--- a/configs/mae/upernet_mae-base_fp16_8x2_512x512_160k_ade20k.py
+++ b/configs/mae/upernet_mae-base_fp16_8x2_512x512_160k_ade20k.py
@ -35,15 +35,18 @@ optim_wrapper = dict(
    paramwise_cfg=dict(num_layers=12, layer_decay_rate=0.65),
    constructor='LayerDecayOptimizerConstructor')

-lr_config = dict(
-    _delete_=True,
-    policy='poly',
-    warmup='linear',
-    warmup_iters=1500,
-    warmup_ratio=1e-6,
+param_scheduler = [
+    dict(
+        type='LinearLR', start_factor=1e-6, by_epoch=False, begin=0, end=1500),
+    dict(
+        type='PolyLR',
+        eta_min=0.0,
        power=1.0,
-    min_lr=0.0,
-    by_epoch=False)
+        begin=1500,
+        end=160000,
+        by_epoch=False,
+    )
+]

 # mixed precision
 fp16 = dict(loss_scale='dynamic')
--- a/configs/ocrnet/ocrnet_r101-d8_512x1024_40k_b16_cityscapes.py
+++ b/configs/ocrnet/ocrnet_r101-d8_512x1024_40k_b16_cityscapes.py
@ -5,4 +5,12 @@ _base_ = [
 model = dict(pretrained='open-mmlab://resnet101_v1c', backbone=dict(depth=101))
 optimizer = dict(type='SGD', lr=0.02, momentum=0.9, weight_decay=0.0005)
 optim_wrapper = dict(type='OptimWrapper', optimizer=optimizer)
-lr_config = dict(min_lr=2e-4)
+param_scheduler = [
+    dict(
+        type='PolyLR',
+        eta_min=2e-4,
+        power=0.9,
+        begin=0,
+        end=40000,
+        by_epoch=False)
+]
--- a/configs/ocrnet/ocrnet_r101-d8_512x1024_80k_b16_cityscapes.py
+++ b/configs/ocrnet/ocrnet_r101-d8_512x1024_80k_b16_cityscapes.py
@ -5,4 +5,12 @@ _base_ = [
 model = dict(pretrained='open-mmlab://resnet101_v1c', backbone=dict(depth=101))
 optimizer = dict(type='SGD', lr=0.02, momentum=0.9, weight_decay=0.0005)
 optim_wrapper = dict(type='OptimWrapper', optimizer=optimizer)
-lr_config = dict(min_lr=2e-4)
+param_scheduler = [
+    dict(
+        type='PolyLR',
+        eta_min=2e-4,
+        power=0.9,
+        begin=0,
+        end=40000,
+        by_epoch=False)
+]
--- a/configs/point_rend/pointrend_r50_512x1024_80k_cityscapes.py
+++ b/configs/point_rend/pointrend_r50_512x1024_80k_cityscapes.py
@ -2,4 +2,14 @@ _base_ = [
    '../_base_/models/pointrend_r50.py', '../_base_/datasets/cityscapes.py',
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_80k.py'
 ]
-lr_config = dict(warmup='linear', warmup_iters=200)
+param_scheduler = [
+    dict(type='LinearLR', by_epoch=False, start_factor=0.1, begin=0, end=200),
+    dict(
+        type='PolyLR',
+        eta_min=1e-4,
+        power=0.9,
+        begin=200,
+        end=80000,
+        by_epoch=False,
+    )
+]
--- a/configs/point_rend/pointrend_r50_512x512_160k_ade20k.py
+++ b/configs/point_rend/pointrend_r50_512x512_160k_ade20k.py
@ -29,4 +29,14 @@ model = dict(decode_head=[
        loss_decode=dict(
            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0))
 ])
-lr_config = dict(warmup='linear', warmup_iters=200)
+param_scheduler = [
+    dict(type='LinearLR', by_epoch=False, start_factor=0.1, begin=0, end=200),
+    dict(
+        type='PolyLR',
+        eta_min=1e-4,
+        power=0.9,
+        begin=200,
+        end=160000,
+        by_epoch=False,
+    )
+]
--- a/configs/pspnet/pspnet_r50-d32_rsb-pretrain_512x1024_adamw_80k_cityscapes.py
+++ b/configs/pspnet/pspnet_r50-d32_rsb-pretrain_512x1024_adamw_80k_cityscapes.py
@ -20,11 +20,15 @@ default_hooks = dict(
        type='OptimizerHook',
        grad_clip=dict(max_norm=1, norm_type=2)))
 # learning policy
-lr_config = dict(
-    _delete_=True,
-    policy='step',
-    warmup='linear',
-    warmup_iters=1000,
-    warmup_ratio=0.001,
-    step=[60000, 72000],
-    by_epoch=False)
+param_scheduler = [
+    dict(
+        type='LinearLR', start_factor=0.001, by_epoch=False, begin=0,
+        end=1000),
+    dict(
+        type='MultiStepLR',
+        begin=1000,
+        end=80000,
+        by_epoch=False,
+        milestones=[60000, 72000],
+    )
+]
--- a/configs/pspnet/pspnet_r50-d8_rsb-pretrain_512x1024_adamw_80k_cityscapes.py
+++ b/configs/pspnet/pspnet_r50-d8_rsb-pretrain_512x1024_adamw_80k_cityscapes.py
@ -18,11 +18,15 @@ default_hooks = dict(
        type='OptimizerHook',
        grad_clip=dict(max_norm=1, norm_type=2)))
 # learning policy
-lr_config = dict(
-    _delete_=True,
-    policy='step',
-    warmup='linear',
-    warmup_iters=1000,
-    warmup_ratio=0.001,
-    step=[60000, 72000],
-    by_epoch=False)
+param_scheduler = [
+    dict(
+        type='LinearLR', start_factor=0.001, by_epoch=False, begin=0,
+        end=1000),
+    dict(
+        type='MultiStepLR',
+        begin=1000,
+        end=80000,
+        by_epoch=False,
+        milestones=[60000, 72000],
+    )
+]
--- a/configs/segformer/segformer_mit-b0_512x512_160k_ade20k.py
+++ b/configs/segformer/segformer_mit-b0_512x512_160k_ade20k.py
@ -24,15 +24,18 @@ optim_wrapper = dict(
            'head': dict(lr_mult=10.)
        }))

-lr_config = dict(
-    _delete_=True,
-    policy='poly',
-    warmup='linear',
-    warmup_iters=1500,
-    warmup_ratio=1e-6,
+param_scheduler = [
+    dict(
+        type='LinearLR', start_factor=1e-6, by_epoch=False, begin=0, end=1500),
+    dict(
+        type='PolyLR',
+        eta_min=0.0,
        power=1.0,
-    min_lr=0.0,
-    by_epoch=False)
+        begin=1500,
+        end=160000,
+        by_epoch=False,
+    )
+]
 train_dataloader = dict(batch_size=2, num_workers=2)
 val_dataloader = dict(batch_size=2, num_workers=2)
 test_dataloader = val_dataloader
--- a/configs/segformer/segformer_mit-b0_8x1_1024x1024_160k_cityscapes.py
+++ b/configs/segformer/segformer_mit-b0_8x1_1024x1024_160k_cityscapes.py
@ -26,15 +26,20 @@ optim_wrapper = dict(
            'norm': dict(decay_mult=0.),
            'head': dict(lr_mult=10.)
        }))
-lr_config = dict(
-    _delete_=True,
-    policy='poly',
-    warmup='linear',
-    warmup_iters=1500,
-    warmup_ratio=1e-6,
+
+param_scheduler = [
+    dict(
+        type='LinearLR', start_factor=1e-6, by_epoch=False, begin=0, end=1500),
+    dict(
+        type='PolyLR',
+        eta_min=0.0,
        power=1.0,
-    min_lr=0.0,
-    by_epoch=False)
+        begin=1500,
+        end=160000,
+        by_epoch=False,
+    )
+]
+
 train_dataloader = dict(batch_size=1, num_workers=1)
 val_dataloader = dict(batch_size=1, num_workers=1)
 test_dataloader = val_dataloader
--- a/configs/stdc/stdc1_512x1024_80k_cityscapes.py
+++ b/configs/stdc/stdc1_512x1024_80k_cityscapes.py
@ -2,7 +2,17 @@ _base_ = [
    '../_base_/models/stdc.py', '../_base_/datasets/cityscapes.py',
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_80k.py'
 ]
-lr_config = dict(warmup='linear', warmup_iters=1000)
+param_scheduler = [
+    dict(type='LinearLR', by_epoch=False, start_factor=0.1, begin=0, end=1000),
+    dict(
+        type='PolyLR',
+        eta_min=1e-4,
+        power=0.9,
+        begin=1000,
+        end=80000,
+        by_epoch=False,
+    )
+]
 train_dataloader = dict(batch_size=12, num_workers=4)
 val_dataloader = dict(batch_size=12, num_workers=4)
 test_dataloader = val_dataloader
--- a/configs/swin/upernet_swin_tiny_patch4_window7_512x512_160k_ade20k_pretrain_224x224_1K.py
+++ b/configs/swin/upernet_swin_tiny_patch4_window7_512x512_160k_ade20k_pretrain_224x224_1K.py
@ -35,15 +35,18 @@ optim_wrapper = dict(
            'norm': dict(decay_mult=0.)
        }))

-lr_config = dict(
-    _delete_=True,
-    policy='poly',
-    warmup='linear',
-    warmup_iters=1500,
-    warmup_ratio=1e-6,
+param_scheduler = [
+    dict(
+        type='LinearLR', start_factor=1e-6, by_epoch=False, begin=0, end=1500),
+    dict(
+        type='PolyLR',
+        eta_min=0.0,
        power=1.0,
-    min_lr=0.0,
-    by_epoch=False)
+        begin=1500,
+        end=160000,
+        by_epoch=False,
+    )
+]

 # By default, models are trained on 8 GPUs with 2 images per GPU
 train_dataloader = dict(batch_size=2)
--- a/configs/twins/twins_pcpvt-s_uperhead_8x4_512x512_160k_ade20k.py
+++ b/configs/twins/twins_pcpvt-s_uperhead_8x4_512x512_160k_ade20k.py
@ -19,12 +19,15 @@ optim_wrapper = dict(
        'norm': dict(decay_mult=0.)
    }))

-lr_config = dict(
-    _delete_=True,
-    policy='poly',
-    warmup='linear',
-    warmup_iters=1500,
-    warmup_ratio=1e-6,
+param_scheduler = [
+    dict(
+        type='LinearLR', start_factor=1e-6, by_epoch=False, begin=0, end=1500),
+    dict(
+        type='PolyLR',
+        eta_min=0.0,
        power=1.0,
-    min_lr=0.0,
-    by_epoch=False)
+        begin=1500,
+        end=160000,
+        by_epoch=False,
+    )
+]
--- a/configs/twins/twins_svt-s_uperhead_8x2_512x512_160k_ade20k.py
+++ b/configs/twins/twins_svt-s_uperhead_8x2_512x512_160k_ade20k.py
@ -34,15 +34,18 @@ optim_wrapper = dict(
        'norm': dict(decay_mult=0.)
    }))

-lr_config = dict(
-    _delete_=True,
-    policy='poly',
-    warmup='linear',
-    warmup_iters=1500,
-    warmup_ratio=1e-6,
+param_scheduler = [
+    dict(
+        type='LinearLR', start_factor=1e-6, by_epoch=False, begin=0, end=1500),
+    dict(
+        type='PolyLR',
+        eta_min=0.0,
        power=1.0,
-    min_lr=0.0,
-    by_epoch=False)
+        begin=1500,
+        end=160000,
+        by_epoch=False,
+    )
+]

 train_dataloader = dict(batch_size=2, num_workers=2)
 val_dataloader = dict(batch_size=2, num_workers=2)
--- a/configs/unet/deeplabv3_unet_s5-d16_128x128_40k_chase_db1.py
+++ b/configs/unet/deeplabv3_unet_s5-d16_128x128_40k_chase_db1.py
@ -4,4 +4,3 @@ _base_ = [
    '../_base_/schedules/schedule_40k.py'
 ]
 model = dict(test_cfg=dict(crop_size=(128, 128), stride=(85, 85)))
-evaluation = dict(metric='mDice')
--- a/configs/unet/deeplabv3_unet_s5-d16_128x128_40k_stare.py
+++ b/configs/unet/deeplabv3_unet_s5-d16_128x128_40k_stare.py
@ -3,4 +3,3 @@ _base_ = [
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_40k.py'
 ]
 model = dict(test_cfg=dict(crop_size=(128, 128), stride=(85, 85)))
-evaluation = dict(metric='mDice')
--- a/configs/unet/deeplabv3_unet_s5-d16_256x256_40k_hrf.py
+++ b/configs/unet/deeplabv3_unet_s5-d16_256x256_40k_hrf.py
@ -3,4 +3,3 @@ _base_ = [
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_40k.py'
 ]
 model = dict(test_cfg=dict(crop_size=(256, 256), stride=(170, 170)))
-evaluation = dict(metric='mDice')
--- a/configs/unet/deeplabv3_unet_s5-d16_64x64_40k_drive.py
+++ b/configs/unet/deeplabv3_unet_s5-d16_64x64_40k_drive.py
@ -3,4 +3,3 @@ _base_ = [
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_40k.py'
 ]
 model = dict(test_cfg=dict(crop_size=(64, 64), stride=(42, 42)))
-evaluation = dict(metric='mDice')
--- a/configs/unet/fcn_unet_s5-d16_128x128_40k_chase_db1.py
+++ b/configs/unet/fcn_unet_s5-d16_128x128_40k_chase_db1.py
@ -3,4 +3,3 @@ _base_ = [
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_40k.py'
 ]
 model = dict(test_cfg=dict(crop_size=(128, 128), stride=(85, 85)))
-evaluation = dict(metric='mDice')
--- a/configs/unet/fcn_unet_s5-d16_128x128_40k_stare.py
+++ b/configs/unet/fcn_unet_s5-d16_128x128_40k_stare.py
@ -3,4 +3,3 @@ _base_ = [
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_40k.py'
 ]
 model = dict(test_cfg=dict(crop_size=(128, 128), stride=(85, 85)))
-evaluation = dict(metric='mDice')
--- a/configs/unet/fcn_unet_s5-d16_256x256_40k_hrf.py
+++ b/configs/unet/fcn_unet_s5-d16_256x256_40k_hrf.py
@ -3,4 +3,3 @@ _base_ = [
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_40k.py'
 ]
 model = dict(test_cfg=dict(crop_size=(256, 256), stride=(170, 170)))
-evaluation = dict(metric='mDice')
--- a/configs/unet/fcn_unet_s5-d16_64x64_40k_drive.py
+++ b/configs/unet/fcn_unet_s5-d16_64x64_40k_drive.py
@ -3,4 +3,3 @@ _base_ = [
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_40k.py'
 ]
 model = dict(test_cfg=dict(crop_size=(64, 64), stride=(42, 42)))
-evaluation = dict(metric='mDice')
--- a/configs/unet/pspnet_unet_s5-d16_128x128_40k_chase_db1.py
+++ b/configs/unet/pspnet_unet_s5-d16_128x128_40k_chase_db1.py
@ -4,4 +4,3 @@ _base_ = [
    '../_base_/schedules/schedule_40k.py'
 ]
 model = dict(test_cfg=dict(crop_size=(128, 128), stride=(85, 85)))
-evaluation = dict(metric='mDice')
--- a/configs/unet/pspnet_unet_s5-d16_128x128_40k_stare.py
+++ b/configs/unet/pspnet_unet_s5-d16_128x128_40k_stare.py
@ -3,4 +3,3 @@ _base_ = [
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_40k.py'
 ]
 model = dict(test_cfg=dict(crop_size=(128, 128), stride=(85, 85)))
-evaluation = dict(metric='mDice')
--- a/configs/unet/pspnet_unet_s5-d16_256x256_40k_hrf.py
+++ b/configs/unet/pspnet_unet_s5-d16_256x256_40k_hrf.py
@ -3,4 +3,3 @@ _base_ = [
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_40k.py'
 ]
 model = dict(test_cfg=dict(crop_size=(256, 256), stride=(170, 170)))
-evaluation = dict(metric='mDice')
--- a/configs/unet/pspnet_unet_s5-d16_64x64_40k_drive.py
+++ b/configs/unet/pspnet_unet_s5-d16_64x64_40k_drive.py
@ -3,4 +3,3 @@ _base_ = [
    '../_base_/default_runtime.py', '../_base_/schedules/schedule_40k.py'
 ]
 model = dict(test_cfg=dict(crop_size=(64, 64), stride=(42, 42)))
-evaluation = dict(metric='mDice')
--- a/configs/vit/upernet_vit-b16_ln_mln_512x512_160k_ade20k.py
+++ b/configs/vit/upernet_vit-b16_ln_mln_512x512_160k_ade20k.py
@ -29,15 +29,18 @@ optim_wrapper = dict(
            'norm': dict(decay_mult=0.)
        }))

-lr_config = dict(
-    _delete_=True,
-    policy='poly',
-    warmup='linear',
-    warmup_iters=1500,
-    warmup_ratio=1e-6,
+param_scheduler = [
+    dict(
+        type='LinearLR', start_factor=1e-6, by_epoch=False, begin=0, end=1500),
+    dict(
+        type='PolyLR',
+        eta_min=0.0,
        power=1.0,
-    min_lr=0.0,
-    by_epoch=False)
+        begin=1500,
+        end=160000,
+        by_epoch=False,
+    )
+]

 # By default, models are trained on 8 GPUs with 2 images per GPU
 train_dataloader = dict(batch_size=2)
--- a/configs/vit/upernet_vit-b16_mln_512x512_160k_ade20k.py
+++ b/configs/vit/upernet_vit-b16_mln_512x512_160k_ade20k.py
@ -28,15 +28,18 @@ optim_wrapper = dict(
            'norm': dict(decay_mult=0.)
        }))

-lr_config = dict(
-    _delete_=True,
-    policy='poly',
-    warmup='linear',
-    warmup_iters=1500,
-    warmup_ratio=1e-6,
+param_scheduler = [
+    dict(
+        type='LinearLR', start_factor=1e-6, by_epoch=False, begin=0, end=1500),
+    dict(
+        type='PolyLR',
+        eta_min=0.0,
        power=1.0,
-    min_lr=0.0,
-    by_epoch=False)
+        begin=1500,
+        end=160000,
+        by_epoch=False,
+    )
+]

 # By default, models are trained on 8 GPUs with 2 images per GPU
 train_dataloader = dict(batch_size=2)
--- a/configs/vit/upernet_vit-b16_mln_512x512_80k_ade20k.py
+++ b/configs/vit/upernet_vit-b16_mln_512x512_80k_ade20k.py
@ -28,15 +28,18 @@ optim_wrapper = dict(
            'norm': dict(decay_mult=0.)
        }))

-lr_config = dict(
-    _delete_=True,
-    policy='poly',
-    warmup='linear',
-    warmup_iters=1500,
-    warmup_ratio=1e-6,
+param_scheduler = [
+    dict(
+        type='LinearLR', start_factor=1e-6, by_epoch=False, begin=0, end=1500),
+    dict(
+        type='PolyLR',
+        eta_min=0.0,
        power=1.0,
-    min_lr=0.0,
-    by_epoch=False)
+        begin=1500,
+        end=80000,
+        by_epoch=False,
+    )
+]

 # By default, models are trained on 8 GPUs with 2 images per GPU
 train_dataloader = dict(batch_size=2)