PaddleClas/docs/zh_CN/models/ImageNet1k/MobileViT.md

1000 B

MobileviT


目录

1. 概述

MobileViT 是一个轻量级的视觉 Transformer 网络,可以用作计算机视觉领域的通用骨干网路。 MobileViT 结合了 CNN 和 Transformer 的优势,可以更好的处理全局特征和局部特征,更好地解决 Transformer 模型缺乏归纳偏置的问题,最终,在同样参数量下,与其他 SOTA 模型相比,在图像分类、目标检测、语义分割任务上都有大幅提升。论文地址

2. 精度、FLOPs 和参数量

Models Top1 Top5 Reference
top1
Reference
top5
FLOPs
(M)
Params
(M)
MobileViT_XXS 0.6867 0.8878 0.690 - 337.24 1.28
MobileViT_XS 0.7454 0.9227 0.747 - 930.75 2.33
MobileViT_S 0.7814 0.9413 0.783 - 1849.35 5.59