mmclassification/mmcls/models/heads/vision_transformer_head.py

from collections import OrderedDict

import torch
import torch.nn as nn
import torch.nn.functional as F
from mmcv.cnn import build_activation_layer, constant_init, kaiming_init

from ..builder import HEADS
from .cls_head import ClsHead


@HEADS.register_module()
class VisionTransformerClsHead(ClsHead):
    """Vision Transformer classifier head.

    Args:
        num_classes (int): Number of categories excluding the background
            category.
        in_channels (int): Number of channels in the input feature map.
        hidden_dim (int): Number of the dimensions for hidden layer. Only
            available during pre-training. Default None.
        act_cfg (dict): The activation config. Only available during
            pre-training. Defalut Tanh.
        loss (dict): Config of classification loss.
        topk (int | tuple): Top-k accuracy.
        cal_acc (bool): Whether to calculate accuracy during training.
            If mixup is used, this should be False. Default False.
    """  # noqa: W605

    def __init__(self,
                 num_classes,
                 in_channels,
                 hidden_dim=None,
                 act_cfg=dict(type='Tanh'),
                 loss=dict(type='CrossEntropyLoss', loss_weight=1.0),
                 topk=(1, ),
                 cal_acc=False):
        super(VisionTransformerClsHead, self).__init__(
            loss=loss, topk=topk, cal_acc=cal_acc)
        self.in_channels = in_channels
        self.num_classes = num_classes
        self.hidden_dim = hidden_dim
        self.act_cfg = act_cfg

        if self.num_classes <= 0:
            raise ValueError(
                f'num_classes={num_classes} must be a positive integer')

        self._init_layers()

    def _init_layers(self):
        if self.hidden_dim is None:
            layers = [('head', nn.Linear(self.in_channels, self.num_classes))]
        else:
            layers = [
                ('pre_logits', nn.Linear(self.in_channels, self.hidden_dim)),
                ('act', build_activation_layer(self.act_cfg)),
                ('head', nn.Linear(self.hidden_dim, self.num_classes)),
            ]
        self.layers = nn.Sequential(OrderedDict(layers))

    def init_weights(self):
        # Modified from ClassyVision
        if hasattr(self.layers, 'pre_logits'):
            # Lecun norm
            kaiming_init(
                self.layers.pre_logits, mode='fan_in', nonlinearity='linear')
        constant_init(self.layers.head, 0)

    def simple_test(self, img):
        """Test without augmentation."""
        cls_score = self.layers(img)
        if isinstance(cls_score, list):
            cls_score = sum(cls_score) / float(len(cls_score))
        pred = F.softmax(cls_score, dim=1) if cls_score is not None else None
        if torch.onnx.is_in_onnx_export():
            return pred
        pred = list(pred.detach().cpu().numpy())
        return pred

    def forward_train(self, x, gt_label):
        cls_score = self.layers(x)
        losses = self.loss(cls_score, gt_label)
        return losses
[Feature]Add Vit (#214) * add imagenet bs 4096 * add vit_base_patch16_224_finetune * add vit_base_patch16_224_pretrain * add vit_base_patch16_384_finetune * add vit_base_patch16_384_finetune * add vit_b_p16_224_finetune_imagenet * add vit_b_p16_224_pretrain_imagenet * add vit_b_p16_384_finetune_imagenet * add vit * add vit * add vit head * vit unitest * keep up with ClsHead * test vit * add flag to determiine whether to calculate acc during training * Changes related to mmcv1.3.0 * change checkpoint saving interval to 10 * add label smooth * default_runtime.py recovery * docformatter * docformatter * delete 2 lines of comments * delete configs/_base_/schedules/imagenet_bs4096.py * add configs/_base_/schedules/imagenet_bs2048_AdamW.py * rename imagenet_bs4096.py to imagenet_bs2048_AdamW.py * add helpers.py * test vit hybrid backbone * fix HybridEmbed * use to_2tuple instead 2021-04-16 19:22:41 +08:00			`from collections import OrderedDict`

			`import torch`
			`import torch.nn as nn`
			`import torch.nn.functional as F`
			`from mmcv.cnn import build_activation_layer, constant_init, kaiming_init`

			`from ..builder import HEADS`
			`from .cls_head import ClsHead`


			`@HEADS.register_module()`
			`class VisionTransformerClsHead(ClsHead):`
			`"""Vision Transformer classifier head.`

			`Args:`
			`num_classes (int): Number of categories excluding the background`
			`category.`
			`in_channels (int): Number of channels in the input feature map.`
			`hidden_dim (int): Number of the dimensions for hidden layer. Only`
			`available during pre-training. Default None.`
			`act_cfg (dict): The activation config. Only available during`
			`pre-training. Defalut Tanh.`
			`loss (dict): Config of classification loss.`
			`topk (int \| tuple): Top-k accuracy.`
			`cal_acc (bool): Whether to calculate accuracy during training.`
			`If mixup is used, this should be False. Default False.`
			`""" # noqa: W605`

			`def __init__(self,`
			`num_classes,`
			`in_channels,`
			`hidden_dim=None,`
			`act_cfg=dict(type='Tanh'),`
			`loss=dict(type='CrossEntropyLoss', loss_weight=1.0),`
			`topk=(1, ),`
			`cal_acc=False):`
			`super(VisionTransformerClsHead, self).__init__(`
			`loss=loss, topk=topk, cal_acc=cal_acc)`
			`self.in_channels = in_channels`
			`self.num_classes = num_classes`
			`self.hidden_dim = hidden_dim`
			`self.act_cfg = act_cfg`

			`if self.num_classes <= 0:`
			`raise ValueError(`
			`f'num_classes={num_classes} must be a positive integer')`

			`self._init_layers()`

			`def _init_layers(self):`
			`if self.hidden_dim is None:`
			`layers = [('head', nn.Linear(self.in_channels, self.num_classes))]`
			`else:`
			`layers = [`
			`('pre_logits', nn.Linear(self.in_channels, self.hidden_dim)),`
			`('act', build_activation_layer(self.act_cfg)),`
			`('head', nn.Linear(self.hidden_dim, self.num_classes)),`
			`]`
			`self.layers = nn.Sequential(OrderedDict(layers))`

			`def init_weights(self):`
			`# Modified from ClassyVision`
			`if hasattr(self.layers, 'pre_logits'):`
			`# Lecun norm`
			`kaiming_init(`
			`self.layers.pre_logits, mode='fan_in', nonlinearity='linear')`
			`constant_init(self.layers.head, 0)`

			`def simple_test(self, img):`
			`"""Test without augmentation."""`
			`cls_score = self.layers(img)`
			`if isinstance(cls_score, list):`
			`cls_score = sum(cls_score) / float(len(cls_score))`
			`pred = F.softmax(cls_score, dim=1) if cls_score is not None else None`
			`if torch.onnx.is_in_onnx_export():`
			`return pred`
			`pred = list(pred.detach().cpu().numpy())`
			`return pred`

			`def forward_train(self, x, gt_label):`
			`cls_score = self.layers(x)`
			`losses = self.loss(cls_score, gt_label)`
			`return losses`