add_multilingual_text_image_orientation

pull/1986/head
lvjian0706 2022-06-07 14:30:50 +08:00
parent 5da106452b
commit 9653b96d84
3 changed files with 2 additions and 2 deletions

Binary file not shown.

Before

Width:  |  Height:  |  Size: 552 KiB

After

Width:  |  Height:  |  Size: 1.2 MiB

Binary file not shown.

Before

Width:  |  Height:  |  Size: 356 KiB

After

Width:  |  Height:  |  Size: 872 KiB

View File

@ -73,7 +73,7 @@
#### 3.2.1 数据集来源
[第1节](#1)中提供的模型使用内部数据训练得到,该数据集暂时不方便公开。这里基于 [XFUND](https://github.com/doc-analysis/XFUND) 和 [ICDAR2015](https://rrc.cvc.uab.es/?ch=4&com=introduction) 两个公开数据集构造了一个小规模含文字图像方向分类数据集,用于体验本案例。
[第1节](#1)中提供的模型使用内部数据训练得到,该数据集暂时不方便公开。这里基于 [ICDAR2019-ArT](https://ai.baidu.com/broad/introduction?dataset=art)、 [XFUND](https://github.com/doc-analysis/XFUND) 和 [ICDAR2015](https://rrc.cvc.uab.es/?ch=4&com=introduction) 两个公开数据集构造了一个小规模含文字图像方向分类数据集,用于体验本案例。
![](../../images/PULC/docs/text_image_orientation_original_data.png)
@ -83,7 +83,7 @@
在公开数据集的基础上经过后处理即可得到本案例需要的数据,具体处理方法如下:
考虑到原始图片的分辨率较高模型训练时间较长这里将所有数据预先进行了缩放处理在保持长宽比不变的前提下将短边缩放到384。然后将数据进行顺时针旋转处理分别生成90度、180度和270度的合成数据。其中XFUND 生成的796张数据按照 9:1 的比例随机划分成了训练集和验证集, ICDAR2015 生成的6000张数据作为`SKL-UGI知识蒸馏策略`实验中的补充数据。
考虑到原始图片的分辨率较高模型训练时间较长这里将所有数据预先进行了缩放处理在保持长宽比不变的前提下将短边缩放到384。然后将数据进行顺时针旋转处理分别生成90度、180度和270度的合成数据。其中ICDAR2019-ArT 和 XFUND 生成的41460张数据按照 9:1 的比例随机划分成了训练集和验证集, ICDAR2015 生成的6000张数据作为`SKL-UGI知识蒸馏策略`实验中的补充数据。
处理后的数据集部分数据可视化如下: