[Refactor] Move transforms in mmselfsup to mmpretrain. (#1396)

* [Refactor] Move transforms in mmselfsup to mmpretrain. * Update transform docs and configs. And register some mmcv transforms in mmpretrain. * Fix missing transform wrapper. * update selfsup transforms * Fix UT * Fix UT * update gaussianblur inconfigs --------- Co-authored-by: fangyixiao18 <fangyx18@hotmail.com>
2023-03-03 15:01:11 +08:00 · 2023-03-03 15:01:11 +08:00 · a05c79e806
parent 1d6e37e56b
commit a05c79e806
169 changed files with 1253 additions and 559 deletions
--- a/configs/_base_/datasets/cifar100_bs16.py
+++ b/configs/_base_/datasets/cifar100_bs16.py
@ -11,11 +11,11 @@ data_preprocessor = dict(
 train_pipeline = [
    dict(type='RandomCrop', crop_size=32, padding=4),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/cifar10_bs16.py
+++ b/configs/_base_/datasets/cifar10_bs16.py
@ -11,11 +11,11 @@ data_preprocessor = dict(
 train_pipeline = [
    dict(type='RandomCrop', crop_size=32, padding=4),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/cub_bs8_384.py
+++ b/configs/_base_/datasets/cub_bs8_384.py
@ -14,14 +14,14 @@ train_pipeline = [
    dict(type='Resize', scale=510),
    dict(type='RandomCrop', crop_size=384),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='Resize', scale=510),
    dict(type='CenterCrop', crop_size=384),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/cub_bs8_448.py
+++ b/configs/_base_/datasets/cub_bs8_448.py
@ -13,14 +13,14 @@ train_pipeline = [
    dict(type='Resize', scale=600),
    dict(type='RandomCrop', crop_size=448),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='Resize', scale=600),
    dict(type='CenterCrop', crop_size=448),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet21k_bs128.py
+++ b/configs/_base_/datasets/imagenet21k_bs128.py
@ -13,14 +13,14 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='RandomResizedCrop', scale=224),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='ResizeEdge', scale=256, edge='short'),
    dict(type='CenterCrop', crop_size=224),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs128_mbv3.py
+++ b/configs/_base_/datasets/imagenet_bs128_mbv3.py
@ -28,14 +28,14 @@ train_pipeline = [
        max_area_ratio=1 / 3,
        fill_color=bgr_mean,
        fill_std=bgr_std),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='ResizeEdge', scale=256, edge='short', backend='pillow'),
    dict(type='CenterCrop', crop_size=224),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs128_poolformer_medium_224.py
+++ b/configs/_base_/datasets/imagenet_bs128_poolformer_medium_224.py
@ -37,7 +37,7 @@ train_pipeline = [
        max_area_ratio=1 / 3,
        fill_color=bgr_mean,
        fill_std=bgr_std),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
@ -49,7 +49,7 @@ test_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=224),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs128_poolformer_small_224.py
+++ b/configs/_base_/datasets/imagenet_bs128_poolformer_small_224.py
@ -37,7 +37,7 @@ train_pipeline = [
        max_area_ratio=1 / 3,
        fill_color=bgr_mean,
        fill_std=bgr_std),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
@ -49,7 +49,7 @@ test_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=224),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs128_revvit_224.py
+++ b/configs/_base_/datasets/imagenet_bs128_revvit_224.py
@ -38,7 +38,7 @@ train_pipeline = [
        max_area_ratio=1 / 3,
        fill_color=bgr_mean,
        fill_std=bgr_std),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
@ -50,7 +50,7 @@ test_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=224),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs128_vig_224.py
+++ b/configs/_base_/datasets/imagenet_bs128_vig_224.py
@ -37,7 +37,7 @@ train_pipeline = [
        max_area_ratio=1 / 3,
        fill_color=bgr_mean,
        fill_std=bgr_std),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
@ -49,7 +49,7 @@ test_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=224),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs16_eva_196.py
+++ b/configs/_base_/datasets/imagenet_bs16_eva_196.py
@ -17,7 +17,7 @@ train_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
@ -29,7 +29,7 @@ test_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=196),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs16_eva_336.py
+++ b/configs/_base_/datasets/imagenet_bs16_eva_336.py
@ -17,7 +17,7 @@ train_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
@ -29,7 +29,7 @@ test_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=336),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs16_eva_560.py
+++ b/configs/_base_/datasets/imagenet_bs16_eva_560.py
@ -17,7 +17,7 @@ train_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
@ -29,7 +29,7 @@ test_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=560),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs16_pil_bicubic_384.py
+++ b/configs/_base_/datasets/imagenet_bs16_pil_bicubic_384.py
@ -16,13 +16,13 @@ train_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='Resize', scale=384, backend='pillow', interpolation='bicubic'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs256_beitv2.py
+++ b/configs/_base_/datasets/imagenet_bs256_beitv2.py
@ -31,10 +31,7 @@ train_pipeline = [
        num_masking_patches=75,
        max_num_patches=75,
        min_num_patches=16),
-    dict(
-        type='PackSelfSupInputs',
-        algorithm_keys=['mask'],
-        meta_keys=['img_path'])
+    dict(type='PackInputs')
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs256_davit_224.py
+++ b/configs/_base_/datasets/imagenet_bs256_davit_224.py
@ -37,7 +37,7 @@ train_pipeline = [
        max_area_ratio=1 / 3,
        fill_color=bgr_mean,
        fill_std=bgr_std),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
@ -49,7 +49,7 @@ test_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=224),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs256_levit_224.py
+++ b/configs/_base_/datasets/imagenet_bs256_levit_224.py
@ -37,7 +37,7 @@ train_pipeline = [
        max_area_ratio=1 / 3,
        fill_color=bgr_mean,
        fill_std=bgr_std),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
@ -49,7 +49,7 @@ test_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=224),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs256_rsb_a12.py
+++ b/configs/_base_/datasets/imagenet_bs256_rsb_a12.py
@ -29,7 +29,7 @@ train_pipeline = [
        magnitude_std=0.5,
        hparams=dict(
            pad_val=[round(x) for x in bgr_mean], interpolation='bicubic')),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
@ -41,7 +41,7 @@ test_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=224),
-    dict(type='PackClsInputs')
+    dict(type='PackInputs')
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs256_rsb_a3.py
+++ b/configs/_base_/datasets/imagenet_bs256_rsb_a3.py
@ -29,7 +29,7 @@ train_pipeline = [
        magnitude_std=0.5,
        hparams=dict(
            pad_val=[round(x) for x in bgr_mean], interpolation='bicubic')),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
@ -41,7 +41,7 @@ test_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=224),
-    dict(type='PackClsInputs')
+    dict(type='PackInputs')
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs256_simmim_192.py
+++ b/configs/_base_/datasets/imagenet_bs256_simmim_192.py
@ -9,11 +9,7 @@ data_preprocessor = dict(

 train_pipeline = [
    dict(type='LoadImageFromFile'),
-    dict(
-        type='RandomResizedCrop',
-        size=192,
-        scale=(0.67, 1.0),
-        ratio=(3. / 4., 4. / 3.)),
+    dict(type='RandomResizedCrop', scale=192, crop_ratio_range=(0.67, 1.0)),
    dict(type='RandomFlip', prob=0.5),
    dict(
        type='SimMIMMaskGenerator',
@ -21,10 +17,7 @@ train_pipeline = [
        mask_patch_size=32,
        model_patch_size=4,
        mask_ratio=0.6),
-    dict(
-        type='PackSelfSupInputs',
-        algorithm_keys=['mask'],
-        meta_keys=['img_path'])
+    dict(type='PackInputs')
 ]

 train_dataloader = dict(
@ -39,19 +32,3 @@ train_dataloader = dict(
        ann_file='meta/train.txt',
        data_prefix=dict(img_path='train/'),
        pipeline=train_pipeline))
-
-# for visualization
-vis_pipeline = [
-    dict(type='LoadImageFromFile'),
-    dict(type='Resize', scale=(192, 192), backend='pillow'),
-    dict(
-        type='SimMIMMaskGenerator',
-        input_size=192,
-        mask_patch_size=32,
-        model_patch_size=4,
-        mask_ratio=0.6),
-    dict(
-        type='PackSelfSupInputs',
-        algorithm_keys=['mask'],
-        meta_keys=['img_path'])
-]
--- a/configs/_base_/datasets/imagenet_bs256_swin_192.py
+++ b/configs/_base_/datasets/imagenet_bs256_swin_192.py
@ -34,7 +34,7 @@ train_pipeline = [
        max_area_ratio=1 / 3,
        fill_color=[103.53, 116.28, 123.675],
        fill_std=[57.375, 57.12, 58.395]),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
@ -46,7 +46,7 @@ test_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=192),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs32.py
+++ b/configs/_base_/datasets/imagenet_bs32.py
@ -13,14 +13,14 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='RandomResizedCrop', scale=224),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='ResizeEdge', scale=256, edge='short'),
    dict(type='CenterCrop', crop_size=224),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs32_byol.py
+++ b/configs/_base_/datasets/imagenet_bs32_byol.py
@ -10,7 +10,7 @@ data_preprocessor = dict(
 view_pipeline1 = [
    dict(
        type='RandomResizedCrop',
-        size=224,
+        scale=224,
        interpolation='bicubic',
        backend='pillow'),
    dict(type='RandomFlip', prob=0.5),
@ -30,13 +30,17 @@ view_pipeline1 = [
        prob=0.2,
        keep_channels=True,
        channel_weights=(0.114, 0.587, 0.2989)),
-    dict(type='RandomGaussianBlur', sigma_min=0.1, sigma_max=2.0, prob=1.),
+    dict(
+        type='GaussianBlur',
+        magnitude_range=(0.1, 2.0),
+        magnitude_std='inf',
+        prob=1.),
    dict(type='RandomSolarize', prob=0.),
 ]
 view_pipeline2 = [
    dict(
        type='RandomResizedCrop',
-        size=224,
+        scale=224,
        interpolation='bicubic',
        backend='pillow'),
    dict(type='RandomFlip', prob=0.5),
@ -56,7 +60,11 @@ view_pipeline2 = [
        prob=0.2,
        keep_channels=True,
        channel_weights=(0.114, 0.587, 0.2989)),
-    dict(type='RandomGaussianBlur', sigma_min=0.1, sigma_max=2.0, prob=0.1),
+    dict(
+        type='GaussianBlur',
+        magnitude_range=(0.1, 2.0),
+        magnitude_std='inf',
+        prob=0.1),
    dict(type='RandomSolarize', prob=0.2)
 ]
 train_pipeline = [
@ -65,7 +73,7 @@ train_pipeline = [
        type='MultiView',
        num_views=[1, 1],
        transforms=[view_pipeline1, view_pipeline2]),
-    dict(type='PackSelfSupInputs', meta_keys=['img_path'])
+    dict(type='PackInputs')
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs32_mocov2.py
+++ b/configs/_base_/datasets/imagenet_bs32_mocov2.py
@ -10,7 +10,10 @@ data_preprocessor = dict(
 # The difference between mocov2 and mocov1 is the transforms in the pipeline
 view_pipeline = [
    dict(
-        type='RandomResizedCrop', size=224, scale=(0.2, 1.), backend='pillow'),
+        type='RandomResizedCrop',
+        scale=224,
+        crop_ratio_range=(0.2, 1.),
+        backend='pillow'),
    dict(
        type='RandomApply',
        transforms=[
@ -27,14 +30,18 @@ view_pipeline = [
        prob=0.2,
        keep_channels=True,
        channel_weights=(0.114, 0.587, 0.2989)),
-    dict(type='RandomGaussianBlur', sigma_min=0.1, sigma_max=2.0, prob=0.5),
+    dict(
+        type='GaussianBlur',
+        magnitude_range=(0.1, 2.0),
+        magnitude_std='inf',
+        prob=0.5),
    dict(type='RandomFlip', prob=0.5),
 ]

 train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='MultiView', num_views=2, transforms=[view_pipeline]),
-    dict(type='PackSelfSupInputs', meta_keys=['img_path'])
+    dict(type='PackInputs')
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs32_pil_bicubic.py
+++ b/configs/_base_/datasets/imagenet_bs32_pil_bicubic.py
@ -17,7 +17,7 @@ train_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
@ -29,7 +29,7 @@ test_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=224),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs32_pil_resize.py
+++ b/configs/_base_/datasets/imagenet_bs32_pil_resize.py
@ -13,14 +13,14 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='RandomResizedCrop', scale=224, backend='pillow'),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='ResizeEdge', scale=256, edge='short', backend='pillow'),
    dict(type='CenterCrop', crop_size=224),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs32_pillow.py
+++ b/configs/_base_/datasets/imagenet_bs32_pillow.py
@ -1,57 +0,0 @@
-# dataset settings
-dataset_type = 'ImageNet'
-data_root = 'data/imagenet/'
-data_preprocessor = dict(
-    num_classes=1000,
-    # RGB format normalization parameters
-    mean=[123.675, 116.28, 103.53],
-    std=[58.395, 57.12, 57.375],
-    # convert image from BGR to RGB
-    to_rgb=True,
-)
-
-train_pipeline = [
-    dict(type='LoadImageFromFile'),
-    dict(type='RandomResizedCrop', scale=224, backend='pillow'),
-    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
-]
-test_pipeline = [
-    dict(type='LoadImageFromFile'),
-    dict(type='ResizeEdge', scale=256, edge='short', backend='pillow'),
-    dict(type='CenterCrop', crop_size=224),
-    dict(type='PackClsInputs'),
-]
-
-train_dataloader = dict(
-    batch_size=32,
-    num_workers=4,
-    dataset=dict(
-        type=dataset_type,
-        data_root=data_root,
-        ann_file='meta/train.txt',
-        data_prefix='train',
-        pipeline=train_pipeline),
-    sampler=dict(type='DefaultSampler', shuffle=True),
-    collate_fn=dict(type='default_collate'),
-    persistent_workers=True,
-    pin_memory=True,
-)
-
-val_dataloader = dict(
-    batch_size=32,
-    num_workers=4,
-    dataset=dict(
-        type=dataset_type,
-        data_root=data_root,
-        ann_file='meta/val.txt',
-        data_prefix='val',
-        pipeline=test_pipeline),
-    sampler=dict(type='DefaultSampler', shuffle=False),
-    persistent_workers=True,
-)
-val_evaluator = dict(type='Accuracy', topk=(1, 5))
-
-# If you want standard test, please manually configure the test dataset
-test_dataloader = val_dataloader
-test_evaluator = val_evaluator
--- a/configs/_base_/datasets/imagenet_bs32_simclr.py
+++ b/configs/_base_/datasets/imagenet_bs32_simclr.py
@ -8,7 +8,7 @@ data_preprocessor = dict(
    to_rgb=True)

 view_pipeline = [
-    dict(type='RandomResizedCrop', size=224, backend='pillow'),
+    dict(type='RandomResizedCrop', scale=224, backend='pillow'),
    dict(type='RandomFlip', prob=0.5),
    dict(
        type='RandomApply',
@ -26,13 +26,17 @@ view_pipeline = [
        prob=0.2,
        keep_channels=True,
        channel_weights=(0.114, 0.587, 0.2989)),
-    dict(type='RandomGaussianBlur', sigma_min=0.1, sigma_max=2.0, prob=0.5),
+    dict(
+        type='GaussianBlur',
+        magnitude_range=(0.1, 2.0),
+        magnitude_std='inf',
+        prob=0.5),
 ]

 train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='MultiView', num_views=2, transforms=[view_pipeline]),
-    dict(type='PackSelfSupInputs', meta_keys=['img_path'])
+    dict(type='PackInputs')
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs512_mae.py
+++ b/configs/_base_/datasets/imagenet_bs512_mae.py
@ -11,12 +11,12 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(
        type='RandomResizedCrop',
-        size=224,
-        scale=(0.2, 1.0),
+        scale=224,
+        crop_ratio_range=(0.2, 1.0),
        backend='pillow',
        interpolation='bicubic'),
    dict(type='RandomFlip', prob=0.5),
-    dict(type='PackSelfSupInputs', meta_keys=['img_path'])
+    dict(type='PackInputs')
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs512_mocov3.py
+++ b/configs/_base_/datasets/imagenet_bs512_mocov3.py
@ -9,7 +9,10 @@ data_preprocessor = dict(

 view_pipeline1 = [
    dict(
-        type='RandomResizedCrop', size=224, scale=(0.2, 1.), backend='pillow'),
+        type='RandomResizedCrop',
+        scale=224,
+        crop_ratio_range=(0.2, 1.),
+        backend='pillow'),
    dict(
        type='RandomApply',
        transforms=[
@ -26,13 +29,20 @@ view_pipeline1 = [
        prob=0.2,
        keep_channels=True,
        channel_weights=(0.114, 0.587, 0.2989)),
-    dict(type='RandomGaussianBlur', sigma_min=0.1, sigma_max=2.0, prob=1.),
+    dict(
+        type='GaussianBlur',
+        magnitude_range=(0.1, 2.0),
+        magnitude_std='inf',
+        prob=1.),
    dict(type='RandomSolarize', prob=0.),
    dict(type='RandomFlip', prob=0.5),
 ]
 view_pipeline2 = [
    dict(
-        type='RandomResizedCrop', size=224, scale=(0.2, 1.), backend='pillow'),
+        type='RandomResizedCrop',
+        scale=224,
+        crop_ratio_range=(0.2, 1.),
+        backend='pillow'),
    dict(
        type='RandomApply',
        transforms=[
@ -49,7 +59,11 @@ view_pipeline2 = [
        prob=0.2,
        keep_channels=True,
        channel_weights=(0.114, 0.587, 0.2989)),
-    dict(type='RandomGaussianBlur', sigma_min=0.1, sigma_max=2.0, prob=0.1),
+    dict(
+        type='GaussianBlur',
+        magnitude_range=(0.1, 2.0),
+        magnitude_std='inf',
+        prob=0.1),
    dict(type='RandomSolarize', prob=0.2),
    dict(type='RandomFlip', prob=0.5),
 ]
@ -59,7 +73,7 @@ train_pipeline = [
        type='MultiView',
        num_views=[1, 1],
        transforms=[view_pipeline1, view_pipeline2]),
-    dict(type='PackSelfSupInputs', meta_keys=['img_path'])
+    dict(type='PackInputs')
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs64.py
+++ b/configs/_base_/datasets/imagenet_bs64.py
@ -13,14 +13,14 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='RandomResizedCrop', scale=224),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='ResizeEdge', scale=256, edge='short'),
    dict(type='CenterCrop', crop_size=224),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs64_autoaug.py
+++ b/configs/_base_/datasets/imagenet_bs64_autoaug.py
@ -21,14 +21,14 @@ train_pipeline = [
        policies='imagenet',
        hparams=dict(
            pad_val=[round(x) for x in bgr_mean], interpolation='bicubic')),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='ResizeEdge', scale=256, edge='short'),
    dict(type='CenterCrop', crop_size=224),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs64_convmixer_224.py
+++ b/configs/_base_/datasets/imagenet_bs64_convmixer_224.py
@ -37,7 +37,7 @@ train_pipeline = [
        max_area_ratio=1 / 3,
        fill_color=bgr_mean,
        fill_std=bgr_std),
-    dict(type='PackClsInputs')
+    dict(type='PackInputs')
 ]

 test_pipeline = [
@ -49,7 +49,7 @@ test_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=224),
-    dict(type='PackClsInputs')
+    dict(type='PackInputs')
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs64_deit3_224.py
+++ b/configs/_base_/datasets/imagenet_bs64_deit3_224.py
@ -37,7 +37,7 @@ train_pipeline = [
        max_area_ratio=1 / 3,
        fill_color=bgr_mean,
        fill_std=bgr_std),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
@ -49,7 +49,7 @@ test_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=224),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs64_deit3_384.py
+++ b/configs/_base_/datasets/imagenet_bs64_deit3_384.py
@ -17,7 +17,7 @@ train_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
@ -29,7 +29,7 @@ test_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=384),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs64_edgenext_256.py
+++ b/configs/_base_/datasets/imagenet_bs64_edgenext_256.py
@ -37,7 +37,7 @@ train_pipeline = [
        max_area_ratio=1 / 3,
        fill_color=bgr_mean,
        fill_std=bgr_std),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
@ -49,7 +49,7 @@ test_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=256),
-    dict(type='PackClsInputs')
+    dict(type='PackInputs')
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs64_mixer_224.py
+++ b/configs/_base_/datasets/imagenet_bs64_mixer_224.py
@ -14,14 +14,14 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='RandomResizedCrop', scale=224),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='ResizeEdge', scale=256, edge='short', interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=224),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs64_pil_resize.py
+++ b/configs/_base_/datasets/imagenet_bs64_pil_resize.py
@ -13,14 +13,14 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='RandomResizedCrop', scale=224, backend='pillow'),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='ResizeEdge', scale=256, edge='short', backend='pillow'),
    dict(type='CenterCrop', crop_size=224),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs64_pil_resize_autoaug.py
+++ b/configs/_base_/datasets/imagenet_bs64_pil_resize_autoaug.py
@ -25,7 +25,7 @@ train_pipeline = [
        policies='imagenet',
        hparams=dict(
            pad_val=[round(x) for x in bgr_mean], interpolation='bicubic')),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
@ -37,7 +37,7 @@ test_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=224),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs64_swin_224.py
+++ b/configs/_base_/datasets/imagenet_bs64_swin_224.py
@ -37,7 +37,7 @@ train_pipeline = [
        max_area_ratio=1 / 3,
        fill_color=bgr_mean,
        fill_std=bgr_std),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
@ -49,7 +49,7 @@ test_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=224),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs64_swin_256.py
+++ b/configs/_base_/datasets/imagenet_bs64_swin_256.py
@ -37,7 +37,7 @@ train_pipeline = [
        max_area_ratio=1 / 3,
        fill_color=bgr_mean,
        fill_std=bgr_std),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
@ -49,7 +49,7 @@ test_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=256),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs64_swin_384.py
+++ b/configs/_base_/datasets/imagenet_bs64_swin_384.py
@ -17,13 +17,13 @@ train_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='Resize', scale=384, backend='pillow', interpolation='bicubic'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs64_t2t_224.py
+++ b/configs/_base_/datasets/imagenet_bs64_t2t_224.py
@ -37,7 +37,7 @@ train_pipeline = [
        max_area_ratio=1 / 3,
        fill_color=bgr_mean,
        fill_std=bgr_std),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
@ -49,7 +49,7 @@ test_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=224),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/imagenet_bs8_pil_bicubic_320.py
+++ b/configs/_base_/datasets/imagenet_bs8_pil_bicubic_320.py
@ -16,7 +16,7 @@ train_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
@ -28,7 +28,7 @@ test_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=320),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/inshop_bs32_448.py
+++ b/configs/_base_/datasets/inshop_bs32_448.py
@ -12,14 +12,14 @@ train_pipeline = [
    dict(type='Resize', scale=512),
    dict(type='RandomCrop', crop_size=448),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='Resize', scale=512),
    dict(type='CenterCrop', crop_size=448),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(
--- a/configs/_base_/datasets/voc_bs16.py
+++ b/configs/_base_/datasets/voc_bs16.py
@ -15,14 +15,14 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='RandomResizedCrop', scale=224),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='ResizeEdge', scale=256, edge='short'),
    dict(type='CenterCrop', crop_size=224),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(
--- a/configs/barlowtwins/benchmarks/resnet50_8xb32-linear-coslr-100e_in1k.py
+++ b/configs/barlowtwins/benchmarks/resnet50_8xb32-linear-coslr-100e_in1k.py
@ -1,6 +1,6 @@
 _base_ = [
    '../../_base_/models/resnet50.py',
-    '../../_base_/datasets/imagenet_bs32_pillow.py',
+    '../../_base_/datasets/imagenet_bs32_pil_resize.py',
    '../../_base_/schedules/imagenet_sgd_coslr_100e.py',
    '../../_base_/default_runtime.py',
 ]
--- a/configs/beit/beit_beit-base-p16_8xb256-amp-coslr-300e_in1k.py
+++ b/configs/beit/beit_beit-base-p16_8xb256-amp-coslr-300e_in1k.py
@ -33,10 +33,7 @@ train_pipeline = [
        num_masking_patches=75,
        max_num_patches=None,
        min_num_patches=16),
-    dict(
-        type='PackSelfSupInputs',
-        algorithm_keys=['mask'],
-        meta_keys=['img_path'])
+    dict(type='PackInputs')
 ]
 train_dataloader = dict(
    batch_size=256,
--- a/configs/beit/benchmarks/beit-base-p16_8xb128-coslr-100e_in1k.py
+++ b/configs/beit/benchmarks/beit-base-p16_8xb128-coslr-100e_in1k.py
@ -64,7 +64,7 @@ train_pipeline = [
        max_area_ratio=0.3333333333333333,
        fill_color=[103.53, 116.28, 123.675],
        fill_std=[57.375, 57.12, 58.395]),
-    dict(type='PackClsInputs')
+    dict(type='PackInputs')
 ]
 test_pipeline = [
    dict(type='LoadImageFromFile', file_client_args=file_client_args),
@ -75,7 +75,7 @@ test_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=224),
-    dict(type='PackClsInputs')
+    dict(type='PackInputs')
 ]

 train_dataloader = dict(batch_size=128, dataset=dict(pipeline=train_pipeline))
--- a/configs/beitv2/benchmarks/beit-base-p16_8xb128-coslr-100e_in1k.py
+++ b/configs/beitv2/benchmarks/beit-base-p16_8xb128-coslr-100e_in1k.py
@ -57,7 +57,7 @@ train_pipeline = [
        max_area_ratio=0.3333333333333333,
        fill_color=[103.53, 116.28, 123.675],
        fill_std=[57.375, 57.12, 58.395]),
-    dict(type='PackClsInputs')
+    dict(type='PackInputs')
 ]
 test_pipeline = [
    dict(type='LoadImageFromFile', file_client_args=file_client_args),
@ -68,7 +68,7 @@ test_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=224),
-    dict(type='PackClsInputs')
+    dict(type='PackInputs')
 ]

 train_dataloader = dict(batch_size=128, dataset=dict(pipeline=train_pipeline))
--- a/configs/byol/benchmarks/resnet50_8xb512-linear-coslr-90e_in1k.py
+++ b/configs/byol/benchmarks/resnet50_8xb512-linear-coslr-90e_in1k.py
@ -1,6 +1,6 @@
 _base_ = [
    '../../_base_/models/resnet50.py',
-    '../../_base_/datasets/imagenet_bs32_pillow.py',
+    '../../_base_/datasets/imagenet_bs32_pil_resize.py',
    '../../_base_/schedules/imagenet_lars_coslr_90e.py',
    '../../_base_/default_runtime.py',
 ]
--- a/configs/cae/benchmarks/beit-base-p16_8xb128-coslr-100e_in1k.py
+++ b/configs/cae/benchmarks/beit-base-p16_8xb128-coslr-100e_in1k.py
@ -43,7 +43,7 @@ train_pipeline = [
        max_area_ratio=1 / 3,
        fill_color=bgr_mean,
        fill_std=bgr_std),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
@ -55,7 +55,7 @@ test_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=224),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]
 train_dataloader = dict(dataset=dict(pipeline=train_pipeline), batch_size=128)
 val_dataloader = dict(dataset=dict(pipeline=test_pipeline), batch_size=128)
--- a/configs/cae/cae_vit-base-p16_8xb256-amp-coslr-300e_in1k.py
+++ b/configs/cae/cae_vit-base-p16_8xb256-amp-coslr-300e_in1k.py
@ -28,10 +28,7 @@ train_pipeline = [
        num_masking_patches=75,
        max_num_patches=None,
        min_num_patches=16),
-    dict(
-        type='PackSelfSupInputs',
-        algorithm_keys=['mask'],
-        meta_keys=['img_path'])
+    dict(type='PackInputs')
 ]

 train_dataloader = dict(
--- a/configs/convnext_v2/convnext-v2-huge_32xb32_in1k-512px.py
+++ b/configs/convnext_v2/convnext-v2-huge_32xb32_in1k-512px.py
@ -14,13 +14,13 @@ train_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='Resize', scale=512, backend='pillow', interpolation='bicubic'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(batch_size=32, dataset=dict(pipeline=train_pipeline))
--- a/configs/cspnet/cspdarknet50_8xb32_in1k.py
+++ b/configs/cspnet/cspdarknet50_8xb32_in1k.py
@ -25,7 +25,7 @@ train_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
@ -37,7 +37,7 @@ test_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=256),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
--- a/configs/cspnet/cspresnet50_8xb32_in1k.py
+++ b/configs/cspnet/cspresnet50_8xb32_in1k.py
@ -25,7 +25,7 @@ train_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
@ -37,7 +37,7 @@ test_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=256),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
--- a/configs/cspnet/cspresnext50_8xb32_in1k.py
+++ b/configs/cspnet/cspresnext50_8xb32_in1k.py
@ -25,7 +25,7 @@ train_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
@ -37,7 +37,7 @@ test_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=224),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
--- a/configs/csra/resnet101-csra_1xb16_voc07-448px.py
+++ b/configs/csra/resnet101-csra_1xb16_voc07-448px.py
@ -38,14 +38,14 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='RandomResizedCrop', scale=448, crop_ratio_range=(0.7, 1.0)),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='Resize', scale=448),
    dict(
-        type='PackClsInputs',
+        type='PackInputs',
        # `gt_label_difficult` is needed for VOC evaluation
        meta_keys=('sample_idx', 'img_path', 'ori_shape', 'img_shape',
                   'scale_factor', 'flip', 'flip_direction',
--- a/configs/densecl/benchmarks/resnet50_8xb32-linear-steplr-100e_in1k.py
+++ b/configs/densecl/benchmarks/resnet50_8xb32-linear-steplr-100e_in1k.py
@ -1,6 +1,6 @@
 _base_ = [
    '../../_base_/models/resnet50.py',
-    '../../_base_/datasets/imagenet_bs32_pillow.py',
+    '../../_base_/datasets/imagenet_bs32_pil_resize.py',
    '../../_base_/schedules/imagenet_sgd_steplr_100e.py',
    '../../_base_/default_runtime.py',
 ]
--- a/configs/edgenext/edgenext-base_8xb256-usi_in1k.py
+++ b/configs/edgenext/edgenext-base_8xb256-usi_in1k.py
@ -11,7 +11,7 @@ test_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=256),
-    dict(type='PackClsInputs')
+    dict(type='PackInputs')
 ]

 val_dataloader = dict(dataset=dict(pipeline=test_pipeline))
--- a/configs/edgenext/edgenext-small_8xb256-usi_in1k.py
+++ b/configs/edgenext/edgenext-small_8xb256-usi_in1k.py
@ -11,7 +11,7 @@ test_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=256),
-    dict(type='PackClsInputs')
+    dict(type='PackInputs')
 ]

 val_dataloader = dict(dataset=dict(pipeline=test_pipeline))
--- a/configs/efficientnet/efficientnet-b0_8xb32-01norm_in1k.py
+++ b/configs/efficientnet/efficientnet-b0_8xb32-01norm_in1k.py
@ -17,13 +17,13 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetRandomCrop', scale=224),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetCenterCrop', crop_size=224),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
--- a/configs/efficientnet/efficientnet-b0_8xb32_in1k.py
+++ b/configs/efficientnet/efficientnet-b0_8xb32_in1k.py
@ -10,13 +10,13 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetRandomCrop', scale=224),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetCenterCrop', crop_size=224),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
--- a/configs/efficientnet/efficientnet-b1_8xb32-01norm_in1k.py
+++ b/configs/efficientnet/efficientnet-b1_8xb32-01norm_in1k.py
@ -17,13 +17,13 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetRandomCrop', scale=240),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetCenterCrop', crop_size=240),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
--- a/configs/efficientnet/efficientnet-b1_8xb32_in1k.py
+++ b/configs/efficientnet/efficientnet-b1_8xb32_in1k.py
@ -10,13 +10,13 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetRandomCrop', scale=240),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetCenterCrop', crop_size=240),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
--- a/configs/efficientnet/efficientnet-b2_8xb32-01norm_in1k.py
+++ b/configs/efficientnet/efficientnet-b2_8xb32-01norm_in1k.py
@ -17,13 +17,13 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetRandomCrop', scale=260),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetCenterCrop', crop_size=260),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
--- a/configs/efficientnet/efficientnet-b2_8xb32_in1k.py
+++ b/configs/efficientnet/efficientnet-b2_8xb32_in1k.py
@ -10,13 +10,13 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetRandomCrop', scale=260),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetCenterCrop', crop_size=260),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
--- a/configs/efficientnet/efficientnet-b3_8xb32-01norm_in1k.py
+++ b/configs/efficientnet/efficientnet-b3_8xb32-01norm_in1k.py
@ -17,13 +17,13 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetRandomCrop', scale=300),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetCenterCrop', crop_size=300),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
--- a/configs/efficientnet/efficientnet-b3_8xb32_in1k.py
+++ b/configs/efficientnet/efficientnet-b3_8xb32_in1k.py
@ -10,13 +10,13 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetRandomCrop', scale=300),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetCenterCrop', crop_size=300),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
--- a/configs/efficientnet/efficientnet-b4_8xb32-01norm_in1k.py
+++ b/configs/efficientnet/efficientnet-b4_8xb32-01norm_in1k.py
@ -17,13 +17,13 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetRandomCrop', scale=380),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetCenterCrop', crop_size=380),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
--- a/configs/efficientnet/efficientnet-b4_8xb32_in1k.py
+++ b/configs/efficientnet/efficientnet-b4_8xb32_in1k.py
@ -10,13 +10,13 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetRandomCrop', scale=380),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetCenterCrop', crop_size=380),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
--- a/configs/efficientnet/efficientnet-b5_8xb32-01norm_in1k.py
+++ b/configs/efficientnet/efficientnet-b5_8xb32-01norm_in1k.py
@ -17,13 +17,13 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetRandomCrop', scale=456),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetCenterCrop', crop_size=456),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
--- a/configs/efficientnet/efficientnet-b5_8xb32_in1k.py
+++ b/configs/efficientnet/efficientnet-b5_8xb32_in1k.py
@ -10,13 +10,13 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetRandomCrop', scale=456),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetCenterCrop', crop_size=456),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
--- a/configs/efficientnet/efficientnet-b6_8xb32-01norm_in1k.py
+++ b/configs/efficientnet/efficientnet-b6_8xb32-01norm_in1k.py
@ -17,13 +17,13 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetRandomCrop', scale=528),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetCenterCrop', crop_size=528),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
--- a/configs/efficientnet/efficientnet-b6_8xb32_in1k.py
+++ b/configs/efficientnet/efficientnet-b6_8xb32_in1k.py
@ -10,13 +10,13 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetRandomCrop', scale=528),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetCenterCrop', crop_size=528),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
--- a/configs/efficientnet/efficientnet-b7_8xb32-01norm_in1k.py
+++ b/configs/efficientnet/efficientnet-b7_8xb32-01norm_in1k.py
@ -17,13 +17,13 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetRandomCrop', scale=600),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetCenterCrop', crop_size=600),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
--- a/configs/efficientnet/efficientnet-b7_8xb32_in1k.py
+++ b/configs/efficientnet/efficientnet-b7_8xb32_in1k.py
@ -10,13 +10,13 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetRandomCrop', scale=600),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetCenterCrop', crop_size=600),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
--- a/configs/efficientnet/efficientnet-b8_8xb32-01norm_in1k.py
+++ b/configs/efficientnet/efficientnet-b8_8xb32-01norm_in1k.py
@ -17,13 +17,13 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetRandomCrop', scale=672),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetCenterCrop', crop_size=672),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
--- a/configs/efficientnet/efficientnet-b8_8xb32_in1k.py
+++ b/configs/efficientnet/efficientnet-b8_8xb32_in1k.py
@ -10,13 +10,13 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetRandomCrop', scale=672),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetCenterCrop', crop_size=672),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
--- a/configs/efficientnet/efficientnet-em_8xb32-01norm_in1k.py
+++ b/configs/efficientnet/efficientnet-em_8xb32-01norm_in1k.py
@ -17,13 +17,13 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetRandomCrop', scale=240),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetCenterCrop', crop_size=240),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
--- a/configs/efficientnet/efficientnet-es_8xb32-01norm_in1k.py
+++ b/configs/efficientnet/efficientnet-es_8xb32-01norm_in1k.py
@ -10,13 +10,13 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetRandomCrop', scale=224),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetCenterCrop', crop_size=224),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
--- a/configs/efficientnet/efficientnet-l2_8xb32_in1k-475px.py
+++ b/configs/efficientnet/efficientnet-l2_8xb32_in1k-475px.py
@ -10,13 +10,13 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetRandomCrop', scale=475),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetCenterCrop', crop_size=475),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
--- a/configs/efficientnet/efficientnet-l2_8xb8_in1k-800px.py
+++ b/configs/efficientnet/efficientnet-l2_8xb8_in1k-800px.py
@ -10,13 +10,13 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetRandomCrop', scale=800),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetCenterCrop', crop_size=800),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(batch_size=8, dataset=dict(pipeline=train_pipeline))
--- a/configs/efficientnet_v2/efficientnetv2-b0_8xb32_in1k.py
+++ b/configs/efficientnet_v2/efficientnetv2-b0_8xb32_in1k.py
@ -44,13 +44,13 @@ train_pipeline = [
        max_area_ratio=1 / 3,
        fill_color=bgr_mean,
        fill_std=bgr_std),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetCenterCrop', crop_size=224, crop_padding=0),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
--- a/configs/efficientnet_v2/efficientnetv2-b1_8xb32_in1k.py
+++ b/configs/efficientnet_v2/efficientnetv2-b1_8xb32_in1k.py
@ -7,13 +7,13 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetRandomCrop', scale=192),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetCenterCrop', crop_size=240, crop_padding=0),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
--- a/configs/efficientnet_v2/efficientnetv2-b2_8xb32_in1k.py
+++ b/configs/efficientnet_v2/efficientnetv2-b2_8xb32_in1k.py
@ -7,13 +7,13 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetRandomCrop', scale=208),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetCenterCrop', crop_size=260, crop_padding=0),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
--- a/configs/efficientnet_v2/efficientnetv2-b3_8xb32_in1k.py
+++ b/configs/efficientnet_v2/efficientnetv2-b3_8xb32_in1k.py
@ -7,13 +7,13 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetRandomCrop', scale=240),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetCenterCrop', crop_size=300, crop_padding=0),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
--- a/configs/efficientnet_v2/efficientnetv2-l_8xb32_in1k-480px.py
+++ b/configs/efficientnet_v2/efficientnetv2-l_8xb32_in1k-480px.py
@ -9,13 +9,13 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetRandomCrop', scale=384, crop_padding=0),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetCenterCrop', crop_size=480, crop_padding=0),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
--- a/configs/efficientnet_v2/efficientnetv2-m_8xb32_in1k-480px.py
+++ b/configs/efficientnet_v2/efficientnetv2-m_8xb32_in1k-480px.py
@ -9,13 +9,13 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetRandomCrop', scale=384, crop_padding=0),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetCenterCrop', crop_size=480, crop_padding=0),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
--- a/configs/efficientnet_v2/efficientnetv2-s_8xb32_in1k-384px.py
+++ b/configs/efficientnet_v2/efficientnetv2-s_8xb32_in1k-384px.py
@ -20,13 +20,13 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetRandomCrop', scale=300, crop_padding=0),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetCenterCrop', crop_size=384, crop_padding=0),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
--- a/configs/efficientnet_v2/efficientnetv2-s_8xb32_in21k.py
+++ b/configs/efficientnet_v2/efficientnetv2-s_8xb32_in21k.py
@ -23,13 +23,13 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetRandomCrop', scale=224),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetCenterCrop', crop_size=224, crop_padding=0),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
--- a/configs/efficientnet_v2/efficientnetv2-xl_8xb32_in1k-512px.py
+++ b/configs/efficientnet_v2/efficientnetv2-xl_8xb32_in1k-512px.py
@ -9,13 +9,13 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetRandomCrop', scale=384, crop_padding=0),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='EfficientNetCenterCrop', crop_size=512, crop_padding=0),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
--- a/configs/eva/benchmarks/vit-base-p16_8xb128-coslr-100e_in1k.py
+++ b/configs/eva/benchmarks/vit-base-p16_8xb128-coslr-100e_in1k.py
@ -29,7 +29,7 @@ train_pipeline = [
        max_area_ratio=0.3333333333333333,
        fill_color=[103.53, 116.28, 123.675],
        fill_std=[57.375, 57.12, 58.395]),
-    dict(type='PackClsInputs')
+    dict(type='PackInputs')
 ]
 test_pipeline = [
    dict(type='LoadImageFromFile'),
@ -40,7 +40,7 @@ test_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=224),
-    dict(type='PackClsInputs')
+    dict(type='PackInputs')
 ]

 train_dataloader = dict(batch_size=128, dataset=dict(pipeline=train_pipeline))
--- a/configs/eva/benchmarks/vit-base-p16_8xb2048-linear-coslr-100e_in1k.py
+++ b/configs/eva/benchmarks/vit-base-p16_8xb2048-linear-coslr-100e_in1k.py
@ -1,5 +1,5 @@
 _base_ = [
-    '../../_base_/datasets/imagenet_bs32_pillow.py',
+    '../../_base_/datasets/imagenet_bs32_pil_resize.py',
    '../../_base_/schedules/imagenet_bs1024_adamw_swin.py',
    '../../_base_/default_runtime.py'
 ]
--- a/configs/inception_v3/inception-v3_8xb32_in1k.py
+++ b/configs/inception_v3/inception-v3_8xb32_in1k.py
@ -9,14 +9,14 @@ train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='RandomResizedCrop', scale=299),
    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='ResizeEdge', scale=342, edge='short'),
    dict(type='CenterCrop', crop_size=299),
-    dict(type='PackClsInputs'),
+    dict(type='PackInputs'),
 ]

 train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
--- a/configs/lenet/lenet5_mnist.py
+++ b/configs/lenet/lenet5_mnist.py
@ -12,7 +12,7 @@ model = dict(
 dataset_type = 'MNIST'
 data_preprocessor = dict(mean=[33.46], std=[78.87], num_classes=10)

-pipeline = [dict(type='Resize', scale=32), dict(type='PackClsInputs')]
+pipeline = [dict(type='Resize', scale=32), dict(type='PackInputs')]

 common_data_cfg = dict(
    type=dataset_type, data_prefix='data/mnist', pipeline=pipeline)
--- a/configs/mae/benchmarks/vit-base-p16_8xb128-coslr-100e_in1k.py
+++ b/configs/mae/benchmarks/vit-base-p16_8xb128-coslr-100e_in1k.py
@ -28,7 +28,7 @@ train_pipeline = [
        max_area_ratio=0.3333333333333333,
        fill_color=[103.53, 116.28, 123.675],
        fill_std=[57.375, 57.12, 58.395]),
-    dict(type='PackClsInputs')
+    dict(type='PackInputs')
 ]
 test_pipeline = [
    dict(type='LoadImageFromFile'),
@ -39,7 +39,7 @@ test_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=224),
-    dict(type='PackClsInputs')
+    dict(type='PackInputs')
 ]

 train_dataloader = dict(batch_size=128, dataset=dict(pipeline=train_pipeline))
--- a/configs/mae/benchmarks/vit-base-p16_8xb2048-linear-coslr-90e_in1k.py
+++ b/configs/mae/benchmarks/vit-base-p16_8xb2048-linear-coslr-90e_in1k.py
@ -1,5 +1,5 @@
 _base_ = [
-    '../../_base_/datasets/imagenet_bs32_pillow.py',
+    '../../_base_/datasets/imagenet_bs32_pil_resize.py',
    '../../_base_/schedules/imagenet_bs1024_adamw_swin.py',
    '../../_base_/default_runtime.py'
 ]
--- a/configs/mae/benchmarks/vit-huge-p14_32xb8-coslr-50e_in1k-448px.py
+++ b/configs/mae/benchmarks/vit-huge-p14_32xb8-coslr-50e_in1k-448px.py
@ -29,7 +29,7 @@ train_pipeline = [
        max_area_ratio=0.3333333333333333,
        fill_color=[103.53, 116.28, 123.675],
        fill_std=[57.375, 57.12, 58.395]),
-    dict(type='PackClsInputs')
+    dict(type='PackInputs')
 ]

 test_pipeline = [
@ -41,7 +41,7 @@ test_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=448),
-    dict(type='PackClsInputs')
+    dict(type='PackInputs')
 ]

 train_dataloader = dict(batch_size=128, dataset=dict(pipeline=train_pipeline))
--- a/configs/mae/benchmarks/vit-huge-p14_8xb128-coslr-50e_in1k.py
+++ b/configs/mae/benchmarks/vit-huge-p14_8xb128-coslr-50e_in1k.py
@ -29,7 +29,7 @@ train_pipeline = [
        max_area_ratio=0.3333333333333333,
        fill_color=[103.53, 116.28, 123.675],
        fill_std=[57.375, 57.12, 58.395]),
-    dict(type='PackClsInputs')
+    dict(type='PackInputs')
 ]
 test_pipeline = [
    dict(type='LoadImageFromFile'),
@ -40,7 +40,7 @@ test_pipeline = [
        backend='pillow',
        interpolation='bicubic'),
    dict(type='CenterCrop', crop_size=224),
-    dict(type='PackClsInputs')
+    dict(type='PackInputs')
 ]

 train_dataloader = dict(batch_size=128, dataset=dict(pipeline=train_pipeline))
--- a/Show More
+++ b/Show More