Update readme_industry_v5.md

2022-01-25 16:27:44 +08:00 · 2022-01-25 16:27:44 +08:00 · 1cd27a7497
parent 3e728fa466
commit 1cd27a7497
1 changed files with 4 additions and 9 deletions
--- a/docs/readme_industry_v5.md
+++ b/docs/readme_industry_v5.md
@ -52,7 +52,7 @@

 ## 数据准备

-### 数据集介绍<描述方式一>
+### 数据集介绍

 1. 目前开源的商品识别方向的数据集

@ -60,12 +60,7 @@

 - [RP2K: A Large-Scale Retail Product Dataset for Fine-Grained Image Classification](https://arxiv.org/abs/2006.12634) :收集了超过 500,000 张货架上零售产品的图像，属于 2000 种不同的产品。所有图片均在实体零售店人工拍摄，自然采光，符合实际应用场景。

-2. 本项目**以实际应用场景为依托，以数据质量为主要衡量标准**，主体基于上述开源商品识别方向数据集、结合图片爬虫技术等数据搜索方式，开源了一份更符合本项目实际应用背景的[demo数据集](https://aistudio.baidu.com/aistudio/datasetdetail/113685)。此数据集总计覆盖商品**357类**，涵盖包括厨房用品、日用品、饮料等**生活日常购买商品**，商品类别**细粒度较高**，涉及诸如**同一品牌的不同规格商品**、**同一品类的不同品牌商品**等实际场景下的数据可能性，能够模拟实际购物场景下的购买需求。
-
-
-### 数据集介绍<描述方式二>
-
-本项目**以实际应用场景为依托，以数据质量为主要衡量标准**，主体基于[Products-10K Large Scale Product Recognition Dataset](https://www.kaggle.com/c/products-10k/data?select=train.csv)和[RP2K: A Large-Scale Retail Product Dataset for Fine-Grained Image Classification](https://arxiv.org/abs/2006.12634) 两大开源商品识别方向数据集，从中以**样本均衡**、**图像质量**、**实际应用**等为思考维度选取了部分SKU，并结合图片爬虫技术等数据搜索方式，开源了一份更符合本项目实际应用背景和技术需求的[demo数据集](https://aistudio.baidu.com/aistudio/datasetdetail/113685)。此数据集总计覆盖商品**357类**，涵盖包括厨房用品、日用品、饮料等**生活日常购买商品**，商品类别**细粒度较高**，涉及诸如**同一品牌的不同规格商品**、**同一品类的不同品牌商品**等实际场景下的数据可能性，能够模拟实际购物场景下的购买需求。
+2.本项目**以实际应用场景为依托，以数据质量为主要衡量标准**，主体基于上述两大开源商品识别方向数据集，从中以**样本均衡**、**图像质量**、**实际应用**等为思考维度选取了部分SKU，并结合图片爬虫技术等数据搜索方式，开源了一份更符合本项目实际应用背景和技术需求的[demo数据集](https://aistudio.baidu.com/aistudio/datasetdetail/113685)。此数据集总计覆盖商品**357类**，涵盖包括厨房用品、日用品、饮料等**生活日常购买商品**，商品类别**细粒度较高**，涉及诸如**同一品牌的不同规格商品**、**同一品类的不同品牌商品**等实际场景下的数据可能性，能够模拟实际购物场景下的购买需求。

 ### 商品部分list

@ -196,9 +191,9 @@ PP-ShiTu是一个实用的轻量级通用图像识别系统，主要由主体检

 - 检测模型调优

-`PP-ShiTu`中检测模型采用的 `PicoDet    `算法。
+`PP-ShiTu`中检测模型采用的 `PicoDet    `算法，在使用官方模型后，如果不满足精度需求，则可以参考此部分文档，进行模型调优

-对模型进行训练的话，需要自行准备数据，并对数据进行标注，建议一个类别至少准备200张标注图像，并将标注图像及groudtruth文件转成coco文件格式，以方便使用PaddleDetection进行训练训练的时候，请加载主体检测的预训练权重。
+对模型进行训练的话，需要自行准备数据，并对数据进行标注，建议一个类别至少准备200张标注图像，并将标注图像及groudtruth文件转成coco文件格式，以方便使用PaddleDetection进行训练的时候，请加载主体检测的预训练权重。


 - 识别模型调优