[Enhance] Add init_cfg with type='pretrained' to downstream tasks. (#1717)

2025-06-03 21:53:55 +08:00 · 2023-07-28 15:28:29 +08:00 · 2023-07-28 15:28:29 +08:00 · 0b96dcaa67
commit 0b96dcaa67
parent b1cd05caf2
32 changed files with 67 additions and 31 deletions
--- a/configs/barlowtwins/benchmarks/resnet50_8xb32-linear-coslr-100e_in1k.py
+++ b/configs/barlowtwins/benchmarks/resnet50_8xb32-linear-coslr-100e_in1k.py
@ -5,7 +5,10 @@ _base_ = [
    '../../_base_/default_runtime.py',
 ]
-model = dict(backbone=dict(frozen_stages=4))
+model = dict(
    backbone=dict(
        frozen_stages=4,
        init_cfg=dict(type='Pretrained', checkpoint='', prefix='backbone.')))
 # runtime settings
 default_hooks = dict(
--- a/configs/beit/benchmarks/beit-base-p16_8xb128-coslr-100e_in1k.py
+++ b/configs/beit/benchmarks/beit-base-p16_8xb128-coslr-100e_in1k.py
@ -23,7 +23,8 @@ model = dict(
        out_type='avg_featmap',
        use_abs_pos_emb=False,
        use_rel_pos_bias=True,
-        use_shared_rel_pos_bias=False),
+        use_shared_rel_pos_bias=False,
        init_cfg=dict(type='Pretrained', checkpoint='', prefix='backbone.')),
    neck=None,
    head=dict(
        type='LinearClsHead',
--- a/configs/beitv2/benchmarks/beit-base-p16_8xb128-coslr-100e_in1k.py
+++ b/configs/beitv2/benchmarks/beit-base-p16_8xb128-coslr-100e_in1k.py
@ -17,7 +17,8 @@ model = dict(
        out_type='avg_featmap',
        use_abs_pos_emb=False,
        use_rel_pos_bias=True,
-        use_shared_rel_pos_bias=False),
+        use_shared_rel_pos_bias=False,
        init_cfg=dict(type='Pretrained', checkpoint='', prefix='backbone.')),
    neck=None,
    head=dict(
        type='LinearClsHead',
--- a/configs/byol/benchmarks/resnet50_8xb512-linear-coslr-90e_in1k.py
+++ b/configs/byol/benchmarks/resnet50_8xb512-linear-coslr-90e_in1k.py
@ -5,7 +5,10 @@ _base_ = [
    '../../_base_/default_runtime.py',
 ]
-model = dict(backbone=dict(frozen_stages=4))
+model = dict(
    backbone=dict(
        frozen_stages=4,
        init_cfg=dict(type='Pretrained', checkpoint='', prefix='backbone.')))
 # dataset summary
 train_dataloader = dict(batch_size=512)
--- a/configs/cae/benchmarks/beit-base-p16_8xb128-coslr-100e_in1k.py
+++ b/configs/cae/benchmarks/beit-base-p16_8xb128-coslr-100e_in1k.py
@ -74,7 +74,7 @@ model = dict(
        use_abs_pos_emb=True,
        use_rel_pos_bias=True,
        use_shared_rel_pos_bias=False,
-        init_cfg=dict(type='Pretrained', checkpoint='')),
+        init_cfg=dict(type='Pretrained', checkpoint='', prefix='backbone.')),
    neck=None,
    head=dict(
        type='LinearClsHead',
--- a/configs/densecl/benchmarks/resnet50_8xb32-linear-steplr-100e_in1k.py
+++ b/configs/densecl/benchmarks/resnet50_8xb32-linear-steplr-100e_in1k.py
@ -5,7 +5,10 @@ _base_ = [
    '../../_base_/default_runtime.py',
 ]
-model = dict(backbone=dict(frozen_stages=4))
+model = dict(
    backbone=dict(
        frozen_stages=4,
        init_cfg=dict(type='Pretrained', checkpoint='', prefix='backbone.')))
 # optimizer
 optim_wrapper = dict(
--- a/configs/eva/benchmarks/vit-base-p16_8xb128-coslr-100e_in1k.py
+++ b/configs/eva/benchmarks/vit-base-p16_8xb128-coslr-100e_in1k.py
@ -58,7 +58,7 @@ model = dict(
        drop_path_rate=0.1,
        out_type='avg_featmap',
        final_norm=False,
-        init_cfg=dict(type='Pretrained', checkpoint='')),
+        init_cfg=dict(type='Pretrained', checkpoint='', prefix='backbone.')),
    neck=None,
    head=dict(
        type='LinearClsHead',
--- a/configs/eva/benchmarks/vit-base-p16_8xb2048-linear-coslr-100e_in1k.py
+++ b/configs/eva/benchmarks/vit-base-p16_8xb2048-linear-coslr-100e_in1k.py
@ -19,7 +19,7 @@ model = dict(
        frozen_stages=12,
        out_type='cls_token',
        final_norm=True,
-        init_cfg=dict(type='Pretrained', checkpoint='')),
+        init_cfg=dict(type='Pretrained', checkpoint='', prefix='backbone.')),
    neck=dict(type='ClsBatchNormNeck', input_features=768),
    head=dict(
        type='VisionTransformerClsHead',
--- a/configs/mae/benchmarks/vit-base-p16_8xb128-coslr-100e_in1k.py
+++ b/configs/mae/benchmarks/vit-base-p16_8xb128-coslr-100e_in1k.py
@ -57,7 +57,7 @@ model = dict(
        drop_path_rate=0.1,
        out_type='avg_featmap',
        final_norm=False,
-        init_cfg=dict(type='Pretrained', checkpoint='')),
+        init_cfg=dict(type='Pretrained', checkpoint='', prefix='backbone.')),
    neck=None,
    head=dict(
        type='LinearClsHead',
--- a/configs/mae/benchmarks/vit-base-p16_8xb2048-linear-coslr-90e_in1k.py
+++ b/configs/mae/benchmarks/vit-base-p16_8xb2048-linear-coslr-90e_in1k.py
@ -20,7 +20,7 @@ model = dict(
        frozen_stages=12,
        out_type='cls_token',
        final_norm=True,
-        init_cfg=dict(type='Pretrained', checkpoint='')),
+        init_cfg=dict(type='Pretrained', checkpoint='', prefix='backbone.')),
    neck=dict(type='ClsBatchNormNeck', input_features=768),
    head=dict(
        type='VisionTransformerClsHead',
--- a/configs/mae/benchmarks/vit-huge-p14_32xb8-coslr-50e_in1k-448px.py
+++ b/configs/mae/benchmarks/vit-huge-p14_32xb8-coslr-50e_in1k-448px.py
@ -59,7 +59,7 @@ model = dict(
        drop_path_rate=0.3,  # set to 0.3
        out_type='avg_featmap',
        final_norm=False,
-        init_cfg=dict(type='Pretrained', checkpoint='')),
+        init_cfg=dict(type='Pretrained', checkpoint='', prefix='backbone.')),
    neck=None,
    head=dict(
        type='LinearClsHead',
--- a/configs/mae/benchmarks/vit-huge-p14_8xb128-coslr-50e_in1k.py
+++ b/configs/mae/benchmarks/vit-huge-p14_8xb128-coslr-50e_in1k.py
@ -58,7 +58,7 @@ model = dict(
        drop_path_rate=0.3,  # set to 0.3
        out_type='avg_featmap',
        final_norm=False,
-        init_cfg=dict(type='Pretrained', checkpoint='')),
+        init_cfg=dict(type='Pretrained', checkpoint='', prefix='backbone.')),
    neck=None,
    head=dict(
        type='LinearClsHead',
--- a/configs/mae/benchmarks/vit-large-p16_8xb128-coslr-50e_in1k.py
+++ b/configs/mae/benchmarks/vit-large-p16_8xb128-coslr-50e_in1k.py
@ -58,7 +58,7 @@ model = dict(
        drop_path_rate=0.2,  # set to 0.2
        out_type='avg_featmap',
        final_norm=False,
-        init_cfg=dict(type='Pretrained', checkpoint='')),
+        init_cfg=dict(type='Pretrained', checkpoint='', prefix='backbone.')),
    neck=None,
    head=dict(
        type='LinearClsHead',
--- a/configs/mae/benchmarks/vit-large-p16_8xb2048-linear-coslr-90e_in1k.py
+++ b/configs/mae/benchmarks/vit-large-p16_8xb2048-linear-coslr-90e_in1k.py
@ -20,7 +20,7 @@ model = dict(
        frozen_stages=24,
        out_type='cls_token',
        final_norm=True,
-        init_cfg=dict(type='Pretrained', checkpoint='')),
+        init_cfg=dict(type='Pretrained', checkpoint='', prefix='backbone.')),
    neck=dict(type='ClsBatchNormNeck', input_features=1024),
    head=dict(
        type='VisionTransformerClsHead',
--- a/configs/maskfeat/benchmarks/vit-base-p16_8xb256-coslr-100e_in1k.py
+++ b/configs/maskfeat/benchmarks/vit-base-p16_8xb256-coslr-100e_in1k.py
@ -56,7 +56,7 @@ model = dict(
        drop_path_rate=0.1,
        out_type='avg_featmap',
        final_norm=False,
-        init_cfg=dict(type='Pretrained', checkpoint='')),
+        init_cfg=dict(type='Pretrained', checkpoint='', prefix='backbone.')),
    neck=None,
    head=dict(
        type='LinearClsHead',
--- a/configs/milan/benchmarks/vit-base-p16_8xb128-coslr-100e_in1k.py
+++ b/configs/milan/benchmarks/vit-base-p16_8xb128-coslr-100e_in1k.py
@ -58,7 +58,7 @@ model = dict(
        drop_path_rate=0.1,
        out_type='avg_featmap',
        final_norm=False,
-        init_cfg=dict(type='Pretrained', checkpoint='')),
+        init_cfg=dict(type='Pretrained', checkpoint='', prefix='backbone.')),
    neck=None,
    head=dict(
        type='LinearClsHead',
--- a/configs/milan/benchmarks/vit-base-p16_8xb2048-linear-coslr-100e_in1k.py
+++ b/configs/milan/benchmarks/vit-base-p16_8xb2048-linear-coslr-100e_in1k.py
@ -19,7 +19,7 @@ model = dict(
        frozen_stages=12,
        out_type='cls_token',
        final_norm=True,
-        init_cfg=dict(type='Pretrained', checkpoint='')),
+        init_cfg=dict(type='Pretrained', checkpoint='', prefix='backbone.')),
    neck=dict(type='ClsBatchNormNeck', input_features=768),
    head=dict(
        type='VisionTransformerClsHead',
--- a/configs/mixmim/benchmarks/mixmim-base_8xb128-coslr-100e_in1k.py
+++ b/configs/mixmim/benchmarks/mixmim-base_8xb128-coslr-100e_in1k.py
@ -86,6 +86,10 @@ val_dataloader = dict(
 )
 test_dataloader = val_dataloader
 model = dict(
    backbone=dict(
        init_cfg=dict(type='Pretrained', checkpoint='', prefix='backbone.')))
 # optimizer
 optim_wrapper = dict(
    type='OptimWrapper',
--- a/configs/mocov2/benchmarks/resnet50_8xb32-linear-steplr-100e_in1k.py
+++ b/configs/mocov2/benchmarks/resnet50_8xb32-linear-steplr-100e_in1k.py
@ -5,7 +5,10 @@ _base_ = [
    '../../_base_/default_runtime.py',
 ]
-model = dict(backbone=dict(frozen_stages=4))
+model = dict(
    backbone=dict(
        frozen_stages=4,
        init_cfg=dict(type='Pretrained', checkpoint='', prefix='backbone.')))
 # optimizer
 optim_wrapper = dict(
--- a/configs/mocov3/benchmarks/resnet50_8xb128-linear-coslr-90e_in1k.py
+++ b/configs/mocov3/benchmarks/resnet50_8xb128-linear-coslr-90e_in1k.py
@ -8,7 +8,11 @@ _base_ = [
 # dataset settings
 train_dataloader = dict(batch_size=128)
-model = dict(backbone=dict(frozen_stages=4, norm_eval=True))
+model = dict(
    backbone=dict(
        frozen_stages=4,
        norm_eval=True,
        init_cfg=dict(type='Pretrained', checkpoint='', prefix='backbone.')))
 # optimizer
 optim_wrapper = dict(
--- a/configs/mocov3/benchmarks/vit-base-p16_8xb128-linear-coslr-90e_in1k.py
+++ b/configs/mocov3/benchmarks/vit-base-p16_8xb128-linear-coslr-90e_in1k.py
@ -16,7 +16,8 @@ model = dict(
        patch_size=16,
        stop_grad_conv1=True,
        frozen_stages=12,
-        norm_eval=True),
+        norm_eval=True,
        init_cfg=dict(type='Pretrained', checkpoint='', prefix='backbone.')),
    head=dict(
        type='VisionTransformerClsHead',
        num_classes=1000,
--- a/configs/mocov3/benchmarks/vit-base-p16_8xb64-coslr-150e_in1k.py
+++ b/configs/mocov3/benchmarks/vit-base-p16_8xb64-coslr-150e_in1k.py
@ -12,7 +12,7 @@ model = dict(
        img_size=224,
        patch_size=16,
        drop_path_rate=0.1,
-    ),
+        init_cfg=dict(type='Pretrained', checkpoint='', prefix='backbone.')),
    neck=None,
    head=dict(
        type='VisionTransformerClsHead',
--- a/configs/mocov3/benchmarks/vit-large-p16_8xb64-coslr-100e_in1k.py
+++ b/configs/mocov3/benchmarks/vit-large-p16_8xb64-coslr-100e_in1k.py
@ -12,7 +12,7 @@ model = dict(
        img_size=224,
        patch_size=16,
        drop_path_rate=0.5,
-    ),
+        init_cfg=dict(type='Pretrained', checkpoint='', prefix='backbone.')),
    neck=None,
    head=dict(
        type='VisionTransformerClsHead',
--- a/configs/mocov3/benchmarks/vit-small-p16_8xb128-linear-coslr-90e_in1k.py
+++ b/configs/mocov3/benchmarks/vit-small-p16_8xb128-linear-coslr-90e_in1k.py
@ -16,7 +16,8 @@ model = dict(
        patch_size=16,
        stop_grad_conv1=True,
        frozen_stages=12,
-        norm_eval=True),
+        norm_eval=True,
        init_cfg=dict(type='Pretrained', checkpoint='', prefix='backbone.')),
    head=dict(
        type='VisionTransformerClsHead',
        num_classes=1000,
--- a/configs/simclr/benchmarks/resnet50_8xb512-linear-coslr-90e_in1k.py
+++ b/configs/simclr/benchmarks/resnet50_8xb512-linear-coslr-90e_in1k.py
@ -5,7 +5,10 @@ _base_ = [
    '../../_base_/default_runtime.py',
 ]
-model = dict(backbone=dict(frozen_stages=4))
+model = dict(
    backbone=dict(
        frozen_stages=4,
        init_cfg=dict(type='Pretrained', checkpoint='', prefix='backbone.')))
 # dataset summary
 train_dataloader = dict(batch_size=512)
--- a/configs/simmim/benchmarks/swin-base-w6_8xb256-coslr-100e_in1k-192px.py
+++ b/configs/simmim/benchmarks/swin-base-w6_8xb256-coslr-100e_in1k-192px.py
@ -9,7 +9,8 @@ model = dict(
    backbone=dict(
        img_size=192,
        drop_path_rate=0.1,
-        stage_cfgs=dict(block_cfgs=dict(window_size=6))))
+        stage_cfgs=dict(block_cfgs=dict(window_size=6)),
        init_cfg=dict(type='Pretrained', checkpoint='', prefix='backbone.')))
 # optimizer settings
 optim_wrapper = dict(
--- a/configs/simmim/benchmarks/swin-base-w7_8xb256-coslr-100e_in1k.py
+++ b/configs/simmim/benchmarks/swin-base-w7_8xb256-coslr-100e_in1k.py
@ -52,7 +52,8 @@ model = dict(
    backbone=dict(
        img_size=224,
        drop_path_rate=0.1,
-        stage_cfgs=dict(block_cfgs=dict(window_size=7))))
+        stage_cfgs=dict(block_cfgs=dict(window_size=7)),
        init_cfg=dict(type='Pretrained', checkpoint='', prefix='backbone.')))
 # optimizer settings
 optim_wrapper = dict(
--- a/configs/simmim/benchmarks/swin-large-w14_8xb256-coslr-100e_in1k.py
+++ b/configs/simmim/benchmarks/swin-large-w14_8xb256-coslr-100e_in1k.py
@ -54,7 +54,8 @@ model = dict(
        img_size=224,
        drop_path_rate=0.2,
        stage_cfgs=dict(block_cfgs=dict(window_size=14)),
-        pad_small_map=True),
+        pad_small_map=True,
        init_cfg=dict(type='Pretrained', checkpoint='', prefix='backbone.')),
    head=dict(in_channels=1536))
 # optimizer settings
--- a/configs/simsiam/benchmarks/resnet50_8xb512-linear-coslr-90e_in1k.py
+++ b/configs/simsiam/benchmarks/resnet50_8xb512-linear-coslr-90e_in1k.py
@ -5,7 +5,10 @@ _base_ = [
    '../../_base_/default_runtime.py',
 ]
-model = dict(backbone=dict(frozen_stages=4))
+model = dict(
    backbone=dict(
        frozen_stages=4,
        init_cfg=dict(type='Pretrained', checkpoint='', prefix='backbone.')))
 # dataset summary
 train_dataloader = dict(batch_size=512)
--- a/configs/spark/benchmarks/convnextv2-tiny_8xb256-coslr-300e_in1k.py
+++ b/configs/spark/benchmarks/convnextv2-tiny_8xb256-coslr-300e_in1k.py
@ -55,7 +55,7 @@ model = dict(
        drop_path_rate=0.1,
        layer_scale_init_value=0.,
        use_grn=True,
-    ),
+        init_cfg=dict(type='Pretrained', checkpoint='', prefix='backbone.')),
    head=dict(
        type='LinearClsHead',
        num_classes=1000,
--- a/configs/spark/benchmarks/resnet50_8xb256-coslr-300e_in1k.py
+++ b/configs/spark/benchmarks/resnet50_8xb256-coslr-300e_in1k.py
@ -48,7 +48,7 @@ model = dict(
    backbone=dict(
        norm_cfg=dict(type='SyncBN', requires_grad=True),
        drop_path_rate=0.05,
-    ),
+        init_cfg=dict(type='Pretrained', checkpoint='', prefix='backbone.')),
    head=dict(
        loss=dict(
            type='LabelSmoothLoss', label_smooth_val=0.1, use_sigmoid=True)),
--- a/configs/swav/benchmarks/resnet50_8xb512-linear-coslr-90e_in1k.py
+++ b/configs/swav/benchmarks/resnet50_8xb512-linear-coslr-90e_in1k.py
@ -5,7 +5,10 @@ _base_ = [
    '../../_base_/default_runtime.py',
 ]
-model = dict(backbone=dict(frozen_stages=4))
+model = dict(
    backbone=dict(
        frozen_stages=4,
        init_cfg=dict(type='Pretrained', checkpoint='', prefix='backbone.')))
 # dataset summary
 train_dataloader = dict(batch_size=512)