mirror of
https://github.com/PaddlePaddle/PaddleClas.git
synced 2025-06-03 21:55:06 +08:00
84 lines
2.0 KiB
Markdown
84 lines
2.0 KiB
Markdown
|
# 图像分类任务数据集说明
|
|||
|
|
|||
|
本文档将介绍 PaddleClas 所使用的数据集格式,以及图像分类任务的主要数据集,包括 ImageNet1k 和 flowers102 的介绍。
|
|||
|
|
|||
|
---
|
|||
|
|
|||
|
## 1. 数据集格式说明
|
|||
|
|
|||
|
PaddleClas 使用 `txt` 格式文件指定训练集和测试集,以 `ImageNet1k` 数据集为例,其中 `train_list.txt` 和 `val_list.txt` 的格式形如:
|
|||
|
|
|||
|
```shell
|
|||
|
# 每一行采用"空格"分隔图像路径与标注
|
|||
|
|
|||
|
# 下面是train_list.txt中的格式样例
|
|||
|
train/n01440764/n01440764_10026.JPEG 0
|
|||
|
...
|
|||
|
|
|||
|
# 下面是val_list.txt中的格式样例
|
|||
|
val/ILSVRC2012_val_00000001.JPEG 65
|
|||
|
...
|
|||
|
```
|
|||
|
|
|||
|
## 2. ImageNet1k 数据集
|
|||
|
|
|||
|
数据集 | 训练集大小 | 测试集大小 | 类别数 | 备注|
|
|||
|
:------:|:---------------:|:---------------------:|:-----------:|:-----------:
|
|||
|
[ImageNet1k](http://www.image-net.org/challenges/LSVRC/2012/)|1.2M| 50k | 1000 |
|
|||
|
|
|||
|
从官方下载数据后,按如下组织数据
|
|||
|
|
|||
|
```bash
|
|||
|
PaddleClas/dataset/ILSVRC2012/
|
|||
|
|_ train/
|
|||
|
| |_ n01440764
|
|||
|
| | |_ n01440764_10026.JPEG
|
|||
|
| | |_ ...
|
|||
|
| |_ ...
|
|||
|
| |
|
|||
|
| |_ n15075141
|
|||
|
| |_ ...
|
|||
|
| |_ n15075141_9993.JPEG
|
|||
|
|_ val/
|
|||
|
| |_ ILSVRC2012_val_00000001.JPEG
|
|||
|
| |_ ...
|
|||
|
| |_ ILSVRC2012_val_00050000.JPEG
|
|||
|
|_ train_list.txt
|
|||
|
|_ val_list.txt
|
|||
|
```
|
|||
|
|
|||
|
## 3. Flowers102 数据集
|
|||
|
|
|||
|
数据集 | 训练集大小 | 测试集大小 | 类别数 | 备注|
|
|||
|
:------:|:---------------:|:---------------------:|:-----------:|:-----------:
|
|||
|
[flowers102](https://www.robots.ox.ac.uk/~vgg/data/flowers/102/)|1k | 6k | 102 |
|
|||
|
|
|||
|
将下载的数据解压后,可以看到以下目录
|
|||
|
|
|||
|
```shell
|
|||
|
jpg/
|
|||
|
setid.mat
|
|||
|
imagelabels.mat
|
|||
|
```
|
|||
|
|
|||
|
将以上文件放置在 `PaddleClas/dataset/flowers102/` 下
|
|||
|
|
|||
|
通过运行 `generate_flowers102_list.py` 生成 `train_list.txt` 和 `val_list.txt`:
|
|||
|
|
|||
|
```shell
|
|||
|
python generate_flowers102_list.py jpg train > train_list.txt
|
|||
|
python generate_flowers102_list.py jpg valid > val_list.txt
|
|||
|
```
|
|||
|
|
|||
|
按照如下结构组织数据:
|
|||
|
|
|||
|
```shell
|
|||
|
PaddleClas/dataset/flowers102/
|
|||
|
|_ jpg/
|
|||
|
| |_ image_03601.jpg
|
|||
|
| |_ ...
|
|||
|
| |_ image_02355.jpg
|
|||
|
|_ train_list.txt
|
|||
|
|_ val_list.txt
|
|||
|
```
|