update docs

pull/6178/head
MissPenguin 2022-05-08 08:36:04 +00:00
parent 5f1cdf3292
commit 8cfbbd2c72
1 changed files with 2 additions and 7 deletions

View File

@ -28,7 +28,7 @@ PP-OCRv3在PP-OCRv2的基础上进一步升级。整体的框架图保持了与P
- 识别模块:
- SVTR_LCNet轻量级文本识别网络
- GTCAttention损失指导CTC损失训练策略;
- GTCAttention指导CTC训练策略
- TextConAug挖掘文字上下文信息的数据增广策略
- TextRotNet自监督的预训练模型
- UDML联合互学习策略
@ -97,11 +97,6 @@ PP-OCRv3的识别模块是基于文本识别算法[SVTR](https://arxiv.org/abs/2
<img src="../ppocr_v3/v3_rec_pipeline.png" width=800>
</div>
消融实验如下表所示:
上图中蓝色方块中列举了PP-OCRv3识别模型的6个主要模块。首先在模块①将base模型从CRNN替换为精度更高的单一视觉模型[SVTR](https://arxiv.org/abs/2205.00159)并进行一系列的结构优化进行加速得到全新的轻量级文本识别网络SVTR_LCNet如图中红色虚线框所示在模块②借鉴[GTC](https://arxiv.org/pdf/2002.01276.pdf)策略引入Attention指导CTC训练进一步提升模型精度在模块③使用基于上下文信息的数据增广策略TextConAug丰富训练数据上下文信息提升训练数据多样性在模块④使用TextRotNet训练自监督的预训练模型充分利用无标注识别数据的信息模块⑤基于PP-OCRv2中提出的UDML蒸馏策略进行蒸馏学习除计算2个模型的CTC分支的DMLLoss外也计算2个模型的Attention分支之间的DMLLoss从而得到更优模型在模块⑥中基于UIM无标注数据挖掘方法使用效果好但速度相对较慢的SVTR_tiny模型进行无标签数据挖掘为模型训练增加更多真实数据。
基于上述策略PP-OCRv3识别模型相比PP-OCRv2在速度可比的情况下精度进一步提升4.6%。 具体消融实验如下所示:
| ID | 策略 | 模型大小 | 精度 | 预测耗时CPU + MKLDNN)|
@ -158,7 +153,7 @@ SVTR_Tiny 网络结构如下所示:
注: 测试速度时01-05输入图片尺寸均为(3,32,320) PP-OCRv2-baseline 代表没有借助蒸馏方法训练得到的模型
**2GTCAttention损失指导CTC损失训练策略**
**2GTCAttention指导CTC训练策略**
[GTC](https://arxiv.org/pdf/2002.01276.pdf)Guided Training of CTC利用Attention模块以及损失指导CTC损失训练融合多种文本特征的表达是一种有效的提升文本识别的策略。使用该策略预测时完全去除 Attention 模块在推理阶段不增加任何耗时识别模型的准确率进一步提升到75.8%+1.82%)。训练流程如下所示:
<div align="center">