PaddleClas/docs/zh_CN/models/LeViT.md

1.0 KiB
Raw Blame History

LeViT

概述

LeViT是一种快速推理的、用于图像分类任务的混合神经网络。其设计之初考虑了网络模型在不同的硬件平台上的性能因此能够更好地反映普遍应用的真实场景。通过大量实验作者找到了卷积神经网络与Transformer体系更好的结合方式并且提出了attention-based方法用于整合Transformer中的位置信息编码。论文地址

精度、FLOPS和参数量

Models Top1 Top5 Reference
top1
Reference
top5
FLOPS
(M)
Params
(M)
LeViT-128S 0.7598 0.9269 0.766 0.929 305 7.8
LeViT-128 0.7810 0.9371 0.786 0.940 406 9.2
LeViT-192 0.7934 0.9446 0.800 0.947 658 11
LeViT-256 0.8085 0.9497 0.816 0.954 1120 19
LeViT-384 0.8191 0.9551 0.826 0.960 2353 39

与Reference的精度差异源于数据预处理不同及未使用蒸馏的head作为输出。