Update readme_industry_v5.md

pull/1/head
thomas-yanxin 2022-01-25 16:27:44 +08:00 committed by GitHub
parent 3e728fa466
commit 1cd27a7497
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23
1 changed files with 4 additions and 9 deletions

View File

@ -52,7 +52,7 @@
## 数据准备
### 数据集介绍<描述方式一>
### 数据集介绍
1. 目前开源的商品识别方向的数据集
@ -60,12 +60,7 @@
- [RP2K: A Large-Scale Retail Product Dataset for Fine-Grained Image Classification](https://arxiv.org/abs/2006.12634) :收集了超过 500,000 张货架上零售产品的图像,属于 2000 种不同的产品。所有图片均在实体零售店人工拍摄,自然采光,符合实际应用场景。
2. 本项目**以实际应用场景为依托,以数据质量为主要衡量标准**,主体基于上述开源商品识别方向数据集、结合图片爬虫技术等数据搜索方式,开源了一份更符合本项目实际应用背景的[demo数据集](https://aistudio.baidu.com/aistudio/datasetdetail/113685)。此数据集总计覆盖商品**357类**,涵盖包括厨房用品、日用品、饮料等**生活日常购买商品**,商品类别**细粒度较高**,涉及诸如**同一品牌的不同规格商品**、**同一品类的不同品牌商品**等实际场景下的数据可能性,能够模拟实际购物场景下的购买需求。
### 数据集介绍<描述方式二>
本项目**以实际应用场景为依托,以数据质量为主要衡量标准**,主体基于[Products-10K Large Scale Product Recognition Dataset](https://www.kaggle.com/c/products-10k/data?select=train.csv)和[RP2K: A Large-Scale Retail Product Dataset for Fine-Grained Image Classification](https://arxiv.org/abs/2006.12634) 两大开源商品识别方向数据集,从中以**样本均衡**、**图像质量**、**实际应用**等为思考维度选取了部分SKU并结合图片爬虫技术等数据搜索方式开源了一份更符合本项目实际应用背景和技术需求的[demo数据集](https://aistudio.baidu.com/aistudio/datasetdetail/113685)。此数据集总计覆盖商品**357类**,涵盖包括厨房用品、日用品、饮料等**生活日常购买商品**,商品类别**细粒度较高**,涉及诸如**同一品牌的不同规格商品**、**同一品类的不同品牌商品**等实际场景下的数据可能性,能够模拟实际购物场景下的购买需求。
2.本项目**以实际应用场景为依托,以数据质量为主要衡量标准**,主体基于上述两大开源商品识别方向数据集,从中以**样本均衡**、**图像质量**、**实际应用**等为思考维度选取了部分SKU并结合图片爬虫技术等数据搜索方式开源了一份更符合本项目实际应用背景和技术需求的[demo数据集](https://aistudio.baidu.com/aistudio/datasetdetail/113685)。此数据集总计覆盖商品**357类**,涵盖包括厨房用品、日用品、饮料等**生活日常购买商品**,商品类别**细粒度较高**,涉及诸如**同一品牌的不同规格商品**、**同一品类的不同品牌商品**等实际场景下的数据可能性,能够模拟实际购物场景下的购买需求。
### 商品部分list
@ -196,9 +191,9 @@ PP-ShiTu是一个实用的轻量级通用图像识别系统主要由主体检
- 检测模型调优
`PP-ShiTu`中检测模型采用的 `PicoDet `算法
`PP-ShiTu`中检测模型采用的 `PicoDet `算法,在使用官方模型后,如果不满足精度需求,则可以参考此部分文档,进行模型调优
对模型进行训练的话需要自行准备数据并对数据进行标注建议一个类别至少准备200张标注图像并将标注图像及groudtruth文件转成coco文件格式以方便使用PaddleDetection进行训练训练的时候,请加载主体检测的预训练权重。
对模型进行训练的话需要自行准备数据并对数据进行标注建议一个类别至少准备200张标注图像并将标注图像及groudtruth文件转成coco文件格式以方便使用PaddleDetection进行训练的时候请加载主体检测的预训练权重。
- 识别模型调优