littletomatodonkey e07a2111f3 add play around
2020-04-20 13:19:44 +00:00

1.9 KiB
Raw Blame History

数据说明


1.简介

本文档介绍ImageNet1k和flowers102数据准备过程。 以及PaddleClas提供了丰富的预训练模型

2.数据集准备

数据集 训练集大小 测试集大小 类别数 备注
flowers102 1k 6k 102
ImageNet1k 1.2M 50k 1000
  • 数据格式 按照如下结构组织数据其中train_list.txt 和val_list.txt的格式形如
# 每一行采用"空格"分隔图像路径与标注

ILSVRC2012_val_00000001.JPEG 65
...

ImageNet1k

从官方下载数据后,按如下组织数据

PaddleClas/dataset/imagenet/
|_ train/
|  |_ n01440764
|  |  |_ n01440764_10026.JPEG
|  |  |_ ...
|  |_ ...
|  |
|  |_ n15075141
|     |_ ...
|     |_ n15075141_9993.JPEG
|_ val/
|  |_ ILSVRC2012_val_00000001.JPEG
|  |_ ...
|  |_ ILSVRC2012_val_00050000.JPEG
|_ train_list.txt
|_ val_list.txt

Flowers102

VGG官方网站下载后的数据,解压后包括 jpg/ setid.mat imagelabels.mat 将以上文件放置在PaddleClas/dataset/flowers102/下

通过运行generate_flowers102_list.py生成train_list.txt和val_list.txt

python generate_flowers102_list.py jpg train > train_list.txt
python generate_flowers102_list.py jpg valid > val_list.txt

按照如下结构组织数据:

PaddleClas/dataset/flowers102/
|_ jpg/
|  |_ image_03601.jpg
|  |_ ...
|  |_ image_02355.jpg
|_ train_list.txt
|_ val_list.txt

3.下载预训练模型

通过tools/download.py下载所需要的预训练模型。

python tools/download.py -a ResNet50_vd -p ./pretrained -d True

参数说明:

  • architecture(简写 a模型结构
  • path(简写 p下载路径
  • decompress (简写 d是否解压