PaddleClas/docs/zh_CN/models/ViT_and_DeiT.md

2.4 KiB
Raw Blame History

ViT 与 DeiT 系列


目录

1. 概述

ViTVision Transformer系列模型是 Google 在 2020 年提出的,该模型仅使用标准的 Transformer 结构,完全抛弃了卷积结构,将图像拆分为多个 patch 后再输入到 Transformer 中,展示了 Transformer 在 CV 领域的潜力。论文地址

DeiTData-efficient Image Transformers系列模型是由 FaceBook 在 2020 年底提出的,针对 ViT 模型需要大规模数据集训练的问题进行了改进,最终在 ImageNet 上取得了 83.1%的 Top1 精度。并且使用卷积模型作为教师模型,针对该模型进行知识蒸馏,在 ImageNet 数据集上可以达到 85.2% 的 Top1 精度。论文地址

2. 精度、FLOPS 和参数量

Models Top1 Top5 Reference
top1
Reference
top5
FLOPS
(G)
Params
(M)
ViT_small_patch16_224 0.7769 0.9342 0.7785 0.9342
ViT_base_patch16_224 0.8195 0.9617 0.8178 0.9613
ViT_base_patch16_384 0.8414 0.9717 0.8420 0.9722
ViT_base_patch32_384 0.8176 0.9613 0.8166 0.9613
ViT_large_patch16_224 0.8323 0.9650 0.8306 0.9644
ViT_large_patch16_384 0.8513 0.9736 0.8517 0.9736
ViT_large_patch32_384 0.8153 0.9608 0.815 -
Models Top1 Top5 Reference
top1
Reference
top5
FLOPS
(G)
Params
(M)
DeiT_tiny_patch16_224 0.718 0.910 0.722 0.911
DeiT_small_patch16_224 0.796 0.949 0.799 0.950
DeiT_base_patch16_224 0.817 0.957 0.818 0.956
DeiT_base_patch16_384 0.830 0.962 0.829 0.972
DeiT_tiny_distilled_patch16_224 0.741 0.918 0.745 0.919
DeiT_small_distilled_patch16_224 0.809 0.953 0.812 0.954
DeiT_base_distilled_patch16_224 0.831 0.964 0.834 0.965
DeiT_base_distilled_patch16_384 0.851 0.973 0.852 0.972

关于 Params、FLOPs、Inference speed 等信息,敬请期待。