PaddleClas/docs/zh_CN/tutorials/quick_start_recognition.md

10 KiB
Raw Blame History

图像识别快速开始

本文档包含3个部分环境配置、图像识别体验、未知类别的图像识别体验。

如果图像类别已经存在于图像索引库中,那么可以直接参考图像识别体验章节,完成图像识别过程;如果希望识别未知类别的图像,即图像类别之前不存在于索引库中,那么可以参考未知类别的图像识别体验章节,完成建立索引并识别的过程。

目录

1. 环境配置

  • 安装:请先参考快速安装配置PaddleClas运行环境。

  • 进入deploy运行目录。本部分所有内容与命令均需要在deploy目录下运行,可以通过下面的命令进入deploy目录。

    cd deploy
    

2. 图像识别体验

检测模型与4个方向(Logo、动漫人物、车辆、商品)的识别inference模型、测试数据下载地址以及对应的配置文件地址如下。

模型简介 推荐场景 测试数据地址 inference模型 预测配置文件 构建索引库的配置文件
通用主体检测模型 通用场景 - 模型下载链接 - -
Logo识别模型 Logo场景 数据下载链接 模型下载链接 inference_logo.yaml build_logo.yaml
动漫人物识别模型 动漫人物场景 数据下载链接 模型下载链接 inference_cartoon.yaml build_cartoon.yaml
车辆细分类模型 车辆场景 数据下载链接 模型下载链接 inference_vehicle.yaml build_vehicle.yaml
商品识别模型 商品场景 数据下载链接 模型下载链接 inference_inshop.yaml build_inshop.yaml

注意windows 环境下如果没有安装wget,下载模型时可将链接复制到浏览器中下载并解压放置在相应目录下linux或者macOS用户可以右键点击然后复制下载链接即可通过wget命令下载。

  • 可以按照下面的命令下载并解压数据与模型
mkdir dataset
cd dataset
# 下载demo数据并解压
wget {数据下载链接地址} && tar -xf {压缩包的名称}
cd ..

mkdir models
cd models
# 下载识别inference模型并解压
wget {模型下载链接地址} && tar -xf {压缩包的名称}
cd ..

2.1 下载、解压inference 模型与demo数据

Logo识别为例下载通用检测、识别模型以及Logo识别demo数据命令如下。

mkdir models
cd models
# 下载通用检测inference模型并解压
wget https://paddle-imagenet-models-name.bj.bcebos.com/dygraph/rec/models/inference/ppyolov2_r50vd_dcn_mainbody_v1.0_infer.tar && tar -xf ppyolov2_r50vd_dcn_mainbody_v1.0_infer.tar
# 下载识别inference模型并解压
wget https://paddle-imagenet-models-name.bj.bcebos.com/dygraph/rec/models/inference/logo_rec_ResNet50_Logo3K_v1.0_infer.tar && tar -xf logo_rec_ResNet50_Logo3K_v1.0_infer.tar

cd ..
mkdir dataset
cd dataset
# 下载demo数据并解压
wget https://paddle-imagenet-models-name.bj.bcebos.com/dygraph/rec/data/logo_demo_data_v1.0.tar && tar -xf logo_demo_data_v1.0.tar
cd ..

解压完毕后,dataset文件夹下应有如下文件结构:

├── logo_demo_data_v1.0
│   ├── data_file.txt
│   ├── gallery
│   ├── index
│   └── query
├── ...

其中data_file.txt是用于构建索引库的图像列表文件,gallery文件夹中是所有用于构建索引库的图像原始文件,index文件夹中是构建索引库生成的索引文件,query是用来测试识别效果的demo图像。

models文件夹下应有如下文件结构:

├── logo_rec_ResNet50_Logo3K_v1.0_infer
│   ├── inference.pdiparams
│   ├── inference.pdiparams.info
│   └── inference.pdmodel
├── ppyolov2_r50vd_dcn_mainbody_v1.0_infer
│   ├── inference.pdiparams
│   ├── inference.pdiparams.info
│   └── inference.pdmodel

2.2 Logo识别与检索

以Logo识别demo为例展示识别与检索过程如果希望尝试其他方向的识别与检索效果在下载解压好对应的demo数据与模型之后替换对应的配置文件即可完成预测

2.2.1 识别单张图像

运行下面的命令,对图像./dataset/logo_demo_data_v1.0/query/logo_auxx-1.jpg进行识别与检索

python3.7 python/predict_system.py -c configs/inference_logo.yaml

待检索图像如下所示。

最终输出结果如下。

[{'bbox': [129, 219, 230, 253], 'rec_docs': ['auxx-2', 'auxx-1', 'auxx-2', 'auxx-1', 'auxx-2'], 'rec_scores': array([3.09635019, 3.09635019, 2.83965826, 2.83965826, 2.64057827])}]

其中bbox表示检测出的主体所在位置rec_docs表示索引库中与检出主体最相近的若干张图像对应的标签rec_scores表示对应的相似度。由rec_docs字段可以看出返回的若干个结果均为aux识别正确。

2.2.2 基于文件夹的批量识别

如果希望预测文件夹内的图像,可以直接修改配置文件中的Global.infer_imgs字段,也可以通过下面的-o参数修改对应的配置。

python3.7 python/predict_system.py -c configs/inference_logo.yaml -o Global.infer_imgs="./dataset/logo_demo_data_v1.0/query"

更多地,可以通过修改Global.rec_inference_model_dir字段来更改识别inference模型的路径通过修改IndexProcess.index_path字段来更改索引库索引的路径。

3. 未知类别的图像识别体验

对图像./dataset/logo_demo_data_v1.0/query/logo_cola.jpg进行识别,命令如下

python3.7 python/predict_system.py -c configs/inference_logo.yaml -o Global.infer_imgs="./dataset/logo_demo_data_v1.0/query/logo_cola.jpg"

待检索图像如下所示。

输出结果如下

[{'bbox': [635, 0, 1382, 1043], 'rec_docs': ['Arcam', 'univox', 'univox', 'Arecont Vision', 'univox'], 'rec_scores': array([0.47730467, 0.47625482, 0.46496609, 0.46296868, 0.45239362])}]

由于默认的索引库中不包含对应的索引信息,所以这里的识别结果有误,此时我们可以通过构建新的索引库的方式,完成未知类别的图像识别。

当索引库中的图像无法覆盖我们实际识别的场景时,即在预测未知类别的图像时,我们需要将对应类别的相似图像添加到索引库中,从而完成对未知类别的图像识别,这一过程是不需要重新训练的。

3.1 基于自己的数据集构建索引库

首先需要获取待入库的原始图像文件(保存在./dataset/logo_demo_data_v1.0/gallery文件夹中)以及对应的标签信息,记录原始图像文件的文件名与标签信息)保存在文本文件./dataset/logo_demo_data_v1.0/data_file_update.txt中)。

然后使用下面的命令构建index索引加速识别后的检索过程。

python3.7 python/build_gallery.py -c configs/build_logo.yaml -o IndexProcess.data_file="./dataset/logo_demo_data_v1.0/data_file_update.txt" -o IndexProcess.index_path="./dataset/logo_demo_data_v1.0/index_update"

最终新的索引信息保存在文件夹./dataset/logo_demo_data_v1.0/index_update中。

3.2 基于新的索引库的图像识别

使用新的索引库,对上述图像进行识别,运行命令如下。

python3.7 python/predict_system.py -c configs/inference_logo.yaml -o Global.infer_imgs="./dataset/logo_demo_data_v1.0/query/logo_cola.jpg" -o IndexProcess.index_path="./dataset/logo_demo_data_v1.0/index_update"

输出结果如下。

[{'bbox': [635, 0, 1382, 1043], 'rec_docs': ['coca cola', 'coca cola', 'coca cola', 'coca cola', 'coca cola'], 'rec_scores': array([0.57111013, 0.56019932, 0.55656564, 0.54122502, 0.48266801])}]

识别结果正确。