diff --git a/mmpretrain/configs/vision_transformer/vit_base_p16_32xb128_mae_in1k.py b/mmpretrain/configs/vision_transformer/vit_base_p16_32xb128_mae_in1k.py
index d0c90ab3..18c2afda 100644
--- a/mmpretrain/configs/vision_transformer/vit_base_p16_32xb128_mae_in1k.py
+++ b/mmpretrain/configs/vision_transformer/vit_base_p16_32xb128_mae_in1k.py
@@ -14,7 +14,7 @@ with read_base():
     from .._base_.schedules.imagenet_bs1024_adamw_swin import *
 
 model.update(
-    backbone=dict(drop_rate=0, drop_path_rate=0.1),
+    backbone=dict(drop_rate=0, drop_path_rate=0.1, init_cfg=None),
     head=dict(loss=dict(mode='original')),
     init_cfg=[
         dict(type=TruncNormalInit, layer='Linear', std=.02),
@@ -23,7 +23,6 @@ model.update(
     train_cfg=dict(
         augments=[dict(type=Mixup, alpha=0.8),
                   dict(type=CutMix, alpha=1.0)]))
-model.backbone.init_cfg = []
 
 # dataset settings
 train_dataloader.update(batch_size=128)
diff --git a/mmpretrain/configs/vision_transformer/vit_base_p32_64xb64_in1k.py b/mmpretrain/configs/vision_transformer/vit_base_p32_64xb64_in1k.py
index fc6b2278..3651c93b 100644
--- a/mmpretrain/configs/vision_transformer/vit_base_p32_64xb64_in1k.py
+++ b/mmpretrain/configs/vision_transformer/vit_base_p32_64xb64_in1k.py
@@ -15,7 +15,6 @@ model.update(
     backbone=dict(patch_size=32),
     head=dict(
         hidden_dim=3072,
-        # loss=dict(type=CrossEntropyLoss, loss_weight=1.0),
         topk=(1, 5),
     ),
     train_cfg=dict(augments=dict(type=Mixup, alpha=0.2)),