PaddleOCR/doc/doc_ch/PP-OCRv3_introduction.md
2022-05-07 19:56:38 +08:00

224 lines
12 KiB
Markdown
Raw Blame History

This file contains invisible Unicode characters

This file contains invisible Unicode characters that are indistinguishable to humans but may be processed differently by a computer. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

[English](../doc_en/PP-OCRv3_introduction_en.md) | 简体中文
# PP-OCRv3
- [1. 简介](#1)
- [2. 检测优化](#2)
- [3. 识别优化](#3)
- [4. 端到端评估](#4)
<a name="1"></a>
## 1. 简介
PP-OCRv3在PP-OCRv2的基础上进一步升级。整体的框架图保持了与PP-OCRv2相同的pipeline针对检测模型和识别模型进行了优化。其中检测模型仍基于DB模型优化而识别模型不再采用CRNN换成了会议IJCAI 2022中的最新方法[SVTR](https://arxiv.org/abs/2205.00159)PP-OCRv3系统框图如下所示粉色框中为PP-OCRv3新增策略
<div align="center">
<img src="../ppocrv3_framework.png" width="800">
</div>
从算法改进思路上看,分别针对检测和识别模型,进行了共八个方面的改进:
- 检测模型优化:
- LK-PAN增大感受野的PAN模块
- DML教师模型互学习策略
- RSE-FPN带残差注意力机制的FPN模块
- 识别模型优化:
- SVTR_LCNet轻量级文本识别网络
- GTCAttention指导CTC训练策略
- TextConAug丰富图像上下文信息的数据增广策略
- TextRotNet自监督的预训练模型
- UIM无标签数据挖掘方案。
从效果上看,速度可比情况下,多种场景精度均有大幅提升:
- 中文场景相对于PP-OCRv2中文模型提升超5%
- 英文数字场景相比于PP-OCRv2英文模型提升11%
- 多语言场景优化80+语种识别效果平均准确率提升超5%。
<a name="2"></a>
## 2. 检测优化
PP-OCRv3检测模型整体训练方案仍采用PP-OCRv2的[CML](https://arxiv.org/pdf/2109.03144.pdf)蒸馏策略CML蒸馏包含一个教师模型和两个学生模型在训练过程中教师模型不参与训练学生模型受到来自标签和教师模型的监督同时两个学生模型互相学习。PP-OCRv3分别针对教师模型、学生模型进一步优化。其中在对教师模型优化时采用了增大感受野的PAN模块LK-PAN和DML蒸馏策略在对学生模型优化时采用了带残差注意力机制的FPN模块RSE-FPN。
PP-OCRv3 CML蒸馏训练框架图如下
<div align="center">
<img src=".././ppocr_v3/ppocrv3_det_cml.png" width="800">
</div>
消融实验如下:
|序号|策略|模型大小|hmean|速度cpu + mkldnn)|
|-|-|-|-|-|
|baseline teacher|PP-OCR server|49M|83.2%|171ms|
|teacher1|DB-R50-LK-PAN|124M|85.0%|396ms|
|teacher2|DB-R50-LK-PAN-DML|124M|86.0%|396ms|
|baseline student|PP-OCRv2|3M|83.2%|117ms|
|student0|DB-MV3-RSE-FPN|3.6M|84.5%|124ms|
|student1|DB-MV3-CMLteacher2|3M|84.3%|117ms|
|student2|DB-MV3-RSE-FPN-CMLteacher2|3.6M|85.4%|124ms|
测试环境: Intel Gold 6148 CPU预测时开启MKLDNN加速。
**1增大感受野的PAN模块LK-PANLarge Kernel PAN**
LK-PAN(Large Kernel PAN)是一个具有更大感受野的轻量级[PAN](https://arxiv.org/pdf/1803.01534.pdf)结构。在LK-PAN的path augmentation中使用卷积核为`9*9`的卷积更大的卷积核意味着更大的感受野更容易检测大字体的文字以及极端长宽比的文字。LK-PAN将PP-OCR server检测模型的hmean从83.2%提升到85.0%。
<div align="center">
<img src="../ppocr_v3/LKPAN.png" width="1000">
</div>
**2DMLDeep Mutual Learning蒸馏进一步提升teacher模型精度。**
[DML](https://arxiv.org/abs/1706.00384) 互学习蒸馏方法通过两个结构相同的模型互相学习相比于传统的教师模型监督学生模型的蒸馏方法DML 摆脱了对大的教师模型的依赖蒸馏训练的流程更加简单。在PP-OCRv3的检测模型训练中使用DML蒸馏策略进一步提升教师模型的精度并使用ResNet50作为Backbone。DML策略将教师模型的Hmean从85%进一步提升至86%。
教师模型DML训练流程图如下
<div align="center">
<img src="../ppocr_v3/teacher_dml.png" width="800">
</div>
**3带残差注意力机制的FPN模块RSE-FPNResidual SE-FPN。**
残差结构的通道注意力模块RSE-FPN结构如下图所示RSE-FPN在PP-OCRv2的FPN基础上将FPN中的卷积层更换为通道注意力结构的RSEConv层。考虑到PP-OCRv2的FPN通道数仅为96和24如果直接用SEblock代替FPN中卷积会导致某些通道的特征被抑制进而导致精度下降RSEConv引入残差结构防止训练中包含重要特征的通道被抑制。直接添加RSE-FPN模块可将PP-OCR检测模型的精度Hmean从81.3%提升到84.5%。在学生模型中加入RSE-FPN后进行CML蒸馏比不加时Hmean指标从83.2提升到84.3%。
<div align="center">
<img src=".././ppocr_v3/RSEFPN.png" width="1000">
</div>
<a name="3"></a>
## 3. 识别优化
PP-OCRv3识别模型从网络结构、训练策略、数据增广等多个方面进行了优化PP-OCRv3系统流程图如下所示
<div align="center">
<img src="../ppocr_v3/v3_rec_pipeline.png" width=800>
</div>
上图中蓝色方块中列举了PP-OCRv3识别模型的6个主要模块。首先在模块①将base模型从CRNN替换为精度更高的单一视觉模型[SVTR](https://arxiv.org/abs/2205.00159)并进行一系列的结构优化进行加速得到全新的轻量级文本识别网络SVTR_LCNet如图中红色虚线框所示在模块②借鉴[GTC](https://arxiv.org/pdf/2002.01276.pdf)策略引入Attention指导CTC训练进一步提升模型精度在模块③使用基于上下文信息的数据增广策略TextConAug丰富训练数据上下文信息提升训练数据多样性在模块④使用TextRotNet训练自监督的预训练模型充分利用无标注识别数据的信息模块⑤基于PP-OCRv2中提出的UDML蒸馏策略进行蒸馏学习除计算2个模型的CTC分支的DMLLoss外也计算2个模型的Attention分支之间的DMLLoss从而得到更优模型在模块⑥中基于UIM无标注数据挖掘方法使用效果好但速度相对较慢的SVTR_tiny模型进行无标签数据挖掘为模型训练增加更多真实数据。
基于上述策略PP-OCRv3识别模型相比PP-OCRv2在速度可比的情况下精度进一步提升4.6%。 具体消融实验如下所示:
| ID | 策略 | 模型大小 | 精度 | 预测耗时CPU + MKLDNN)|
|-----|-----|--------|----| --- |
| 01 | PP-OCRv2 | 8M | 74.8% | 8.54ms |
| 02 | SVTR_Tiny | 21M | 80.1% | 97ms |
| 03 | SVTR_LCNet(h32) | 12M | 71.9% | 6.6ms |
| 04 | SVTR_LCNet(h48) | 12M | 73.98% | 7.6ms |
| 05 | + GTC | 12M | 75.8% | 7.6ms |
| 06 | + TextConAug | 12M | 76.3% | 7.6ms |
| 07 | + TextRotNet | 12M | 76.9% | 7.6ms |
| 08 | + UDML | 12M | 78.4% | 7.6ms |
| 09 | + UIM | 12M | 79.4% | 7.6ms |
注: 测试速度时实验01-03输入图片尺寸均为(3,32,320)04-09输入图片尺寸均为(3,48,320)。在实际预测时,图像为变长输入,速度会有所变化。
**1轻量级文本识别网络SVTR_LCNet。**
PP-OCRv3将base模型从CRNN替换成了[SVTR](https://arxiv.org/abs/2205.00159)SVTR证明了强大的单视觉模型无需序列模型即可高效准确完成文本识别任务在中英文数据上均有优秀的表现。经过实验验证SVTR_Tiny 在自建的[中文数据集](https://arxiv.org/abs/2109.03144)上 识别精度可以提升至80.1%SVTR_Tiny 网络结构如下所示:
<div align="center">
<img src="../ppocr_v3/svtr_tiny.png" width=800>
</div>
由于 MKLDNN 加速库支持的模型结构有限SVTR 在 CPU+MKLDNN 上相比 PP-OCRv2 慢了10倍。PP-OCRv3 期望在提升模型精度的同时不带来额外的推理耗时。通过分析发现SVTR_Tiny 结构的主要耗时模块为 Mixing Block因此我们对 SVTR_Tiny 的结构进行了一系列优化(详细速度数据请参考下方消融实验表格):
1. 将 SVTR 网络前半部分替换为 PP-LCNet 的前三个stage保留4个 Global Mixing Block 精度为76%加速69%,网络结构如下所示:
<div align="center">
<img src="../ppocr_v3/svtr_g4.png" width=800>
</div>
2. 将4个 Global Mixing Block 减小到2个精度为72.9%加速69%,网络结构如下所示:
<div align="center">
<img src="../ppocr_v3/svtr_g2.png" width=800>
</div>
3. 实验发现 Global Mixing Block 的预测速度与输入其特征的shape有关因此后移 Global Mixing Block 的位置到池化层之后精度下降为71.9%速度超越基于CNN结构的PP-OCRv2-baseline 22%,网络结构如下所示:
<div align="center">
<img src="../ppocr_v3/LCNet_SVTR.png" width=800>
</div>
具体消融实验如下所示:
| ID | 策略 | 模型大小 | 精度 | 速度CPU + MKLDNN)|
|-----|-----|--------|----| --- |
| 01 | PP-OCRv2-baseline | 8M | 69.3% | 8.54ms |
| 02 | SVTR_Tiny | 21M | 80.1% | 97ms |
| 03 | SVTR_LCNet(G4) | 9.2M | 76% | 30ms |
| 04 | SVTR_LCNet(G2) | 13M | 72.98% | 9.37ms |
| 05 | SVTR_LCNet(h32) | 12M | 71.9% | 6.6ms |
| 06 | SVTR_LCNet(h48) | 12M | 73.98% | 7.6ms |
注: 测试速度时01-05输入图片尺寸均为(3,32,320) PP-OCRv2-baseline 代表没有借助蒸馏方法训练得到的模型
**2采用Attention指导CTC训练。**
为了提升模型精度同时不引入额外推理成本PP-OCRv3 参考 GTC(Guided Training of CTC) 策略,使用 Attention 监督 CTC 训练,预测时完全去除 Attention 模块,在推理阶段不增加任何耗时, 精度提升3.8%,训练流程如下所示:
<div align="center">
<img src="../ppocr_v3/GTC.png" width=800>
</div>
**3TextConAug数据增广策略。**
在论文[ConCLR](https://www.cse.cuhk.edu.hk/~byu/papers/C139-AAAI2022-ConCLR.pdf)中作者提出ConAug数据增广在一个batch内对2张不同的图像进行联结组成新的图像并进行自监督对比学习。PP-OCRv3将此方法应用到有监督的学习任务中设计了TextConAug数据增强方法支持更多图像的联结从而进一步丰富了图像的上下文信息。最终将识别模型精度进一步提升0.5%。TextConAug示意图如下所示
<div align="center">
<img src="../ppocr_v3/recconaug.png" width=800>
</div>
**4TextRotNet自监督训练优化预训练模型。**
为了充分利用自然场景中的大量无标注文本数据PP-OCRv3参考论文[STR-Fewer-Labels](https://github.com/ku21fan/STR-Fewer-Labels)设计TextRotNet自监督任务对识别图像进行旋转并预测其旋转角度同时结合中文场景文字识别任务的特点在训练时适当调整图像的尺寸添加文本识别数据增广最终产出针对文本识别任务的PP-LCNet预训练模型帮助识别模型精度进一步提升0.6%。TextRotNet训练流程如下图所示
<div align="center">
<img src="../ppocr_v3/SSL.png" width="500">
</div>
**5UIMUnlabeled Images Mining无标注数据挖掘策略。**
为更直接利用自然场景中包含大量无标注数据使用PP-OCRv2检测模型以及SVTR_tiny识别模型对百度开源的40W [LSVT弱标注数据集](https://ai.baidu.com/broad/introduction?dataset=lsvt)进行检测与识别并筛选出识别得分大于0.95的文本共81W文本行数据将其补充到训练数据中最终进一步提升模型精度1.0%。
<div align="center">
<img src="../ppocr_v3/UIM.png" width="500">
</div>
<a name="4"></a>
## 4. 端到端评估
经过以上优化最终PP-OCRv3在速度可比情况下中文场景端到端Hmean指标相比于PP-OCRv2提升5%,效果大幅提升。具体指标如下表所示:
| Model | Hmean | Model Size (M) | Time Cost (CPU, ms) | Time Cost (T4 GPU, ms) |
|-----|-----|--------|----| --- |
| PP-OCR mobile | 50.3% | 8.1 | 356 | 116 |
| PP-OCR server | 57.0% | 155.1 | 1056 | 200 |
| PP-OCRv2 | 57.6% | 11.6 | 330 | 111 |
| PP-OCRv3 | 62.9% | 15.6 | 331 | 86.64 |
测试环境CPU型号为Intel Gold 6148CPU预测时开启MKLDNN加速。
除了更新中文模型本次升级也同步优化了英文数字模型端到端效果提升11%,如下表所示:
| Model | Recall | Precision | Hmean |
|-----|-----|--------|----|
| PP-OCR_en | 38.99% | 45.91% | 42.17% |
| PP-OCRv3_en | 50.95% | 55.53% | 53.14% |
同时也对已支持的80余种语言识别模型进行了升级更新在有评估集的四种语系识别准确率平均提升5%以上,如下表所示:
| Model | 拉丁语系 | 阿拉伯语系 | 日语 | 韩语 |
|-----|-----|--------|----| --- |
| PP-OCR_mul | 69.6% | 40.5% | 38.5% | 55.4% |
| PP-OCRv3_mul | 75.2%| 45.37% | 45.8% | 60.1% |