mirror of https://github.com/PaddlePaddle/PaddleOCR.git synced 2025-06-03 21:53:39 +08:00

[Cherry-pick] Cherry-pick from release/2.6 (#11092 )

* Update recognition_en.md (#10059)

ic15_dict.txt only have 36 digits

* Update ocr_rec.h (#9469)

It is enough to include preprocess_op.h, we do not need to include ocr_cls.h.

* 补充num_classes注释说明 (#10073)

ser_vi_layoutxlm_xfund_zh.yml中的Architecture.Backbone.num_classes所赋值会设置给Loss.num_classes，
由于采用BIO标注，假设字典中包含n个字段（包含other）时，则类别数为2n-1;假设字典中包含n个字段（不含other）时，则类别数为2n+1。

* Update algorithm_overview_en.md (#9747)

Fix links to super-resolution algorithm docs

* 改进文档`deploy/hubserving/readme.md`和`doc/doc_ch/models_list.md` (#9110)

* Update readme.md

* Update readme.md

* Update readme.md

* Update models_list.md

* trim trailling spaces @ `deploy/hubserving/readme_en.md`

* `s/shell/bash/` @ `deploy/hubserving/readme_en.md`

* Update `deploy/hubserving/readme_en.md` to sync with `deploy/hubserving/readme.md`

* Update deploy/hubserving/readme_en.md to sync with `deploy/hubserving/readme.md`

* Update deploy/hubserving/readme_en.md to sync with `deploy/hubserving/readme.md`

* Update `doc/doc_en/models_list_en.md` to sync with `doc/doc_ch/models_list_en.md`

* using Grammarly to weak `deploy/hubserving/readme_en.md`

* using Grammarly to tweak `doc/doc_en/models_list_en.md`

* `ocr_system` module will return with values of field `confidence`

* Update README_CN.md

* 修复测试服务中图片转Base64的引用地址错误。 (#8334)

* Update application.md

* [Doc] Fix 404 link.  (#10318)

* Update PP-OCRv3_det_train.md

* Update knowledge_distillation.md

* Update config.md

* Fix fitz camelCase deprecation and .PDF not being recognized as pdf file (#10181)

* Fix fitz camelCase deprecation and .PDF not being recognized as pdf file

* refactor get_image_file_list function

* Update customize.md (#10325)

* Update FAQ.md (#10345)

* Update FAQ.md (#10349)

* Don't break overall processing on a bad image (#10216)

* Add preprocessing common to OCR tasks (#10217)

Add preprocessing to options

* [MLU] add mlu device for infer (#10249)

* Create newfeature.md

* Update newfeature.md

* remove unused imported module, so can avoid PyInstaller packaged binary's start-time not found module error. (#10502)

* CV套件建设专项活动 - 文字识别返回单字识别坐标 (#10515)

* modification of return word box

* update_implements

* Update rec_postprocess.py

* Update utility.py

* Update README_ch.md

* revert README_ch.md update

* Fixed Layout recovery README file (#10493)

Co-authored-by: Shubham Chambhare <shubhamchambhare@zoop.one>

* update_doc

* bugfix

---------

Co-authored-by: ChuongLoc <89434232+ChuongLoc@users.noreply.github.com>
Co-authored-by: Wang Xin <xinwang614@gmail.com>
Co-authored-by: tanjh <dtdhinjapan@gmail.com>
Co-authored-by: Louis Maddox <lmmx@users.noreply.github.com>
Co-authored-by: n0099 <n@n0099.net>
Co-authored-by: zhenliang li <37922155+shouyong@users.noreply.github.com>
Co-authored-by: itasli <ilyas.tasli@outlook.fr>
Co-authored-by: UserUnknownFactor <63057995+UserUnknownFactor@users.noreply.github.com>
Co-authored-by: PeiyuLau <135964669+PeiyuLau@users.noreply.github.com>
Co-authored-by: kerneltravel <kjpioo2006@gmail.com>
Co-authored-by: ToddBear <43341135+ToddBear@users.noreply.github.com>
Co-authored-by: Ligoml <39876205+Ligoml@users.noreply.github.com>
Co-authored-by: Shubham Chambhare <59397280+Shubham654@users.noreply.github.com>
Co-authored-by: Shubham Chambhare <shubhamchambhare@zoop.one>
Co-authored-by: andyj <87074272+andyjpaddle@users.noreply.github.com>

2023-10-18 17:37:23 +08:00

22 KiB

Raw Blame History

PP-OCR系列模型列表（V4，2023年8月1日更新）

说明

V4版模型相比V3版模型，在模型精度上有进一步提升

V3版模型相比V2版模型，在模型精度上有进一步提升

2.0+版模型和1.1版模型的主要区别在于动态图训练vs.静态图训练，模型性能上无明显差距。

本文档提供的是PPOCR自研模型列表，更多基于公开数据集的算法介绍与预训练模型可以参考：算法概览文档。

PP-OCR系列模型列表（V4，2023年8月1日更新）

PaddleOCR提供的可下载模型包括推理模型、训练模型、预训练模型、nb模型，模型区别说明如下：

模型类型	模型格式	简介
推理模型	inference.pdmodel、inference.pdiparams	用于预测引擎推理，详情
训练模型、预训练模型	.pdparams、.pdopt、*.states	训练过程中保存的模型的参数、优化器状态和训练中间信息，多用于模型指标评估和恢复训练
nb模型	*.nb	经过飞桨Paddle-Lite工具优化后的模型，适用于移动端/IoT端等端侧部署场景（需使用飞桨Paddle Lite部署）。

各个模型的关系如下面的示意图所示。

1. 文本检测模型

1.1 中文检测模型

模型名称	模型简介	配置文件	推理模型大小	下载地址
ch_PP-OCRv4_det	【最新】原始超轻量模型，支持中英文、多语种文本检测	ch_PP-OCRv4_det_cml.yml	4.70M	推理模型 / 训练模型
ch_PP-OCRv4_server_det	【最新】原始高精度模型，支持中英文、多语种文本检测	ch_PP-OCRv4_det_teacher.yml	110M	推理模型 / 训练模型
ch_PP-OCRv3_det_slim	slim量化+蒸馏版超轻量模型，支持中英文、多语种文本检测	ch_PP-OCRv3_det_cml.yml	1.1M	推理模型 / 训练模型 / nb模型
ch_PP-OCRv3_det	原始超轻量模型，支持中英文、多语种文本检测	ch_PP-OCRv3_det_cml.yml	3.80M	推理模型 / 训练模型
ch_PP-OCRv2_det_slim	slim量化+蒸馏版超轻量模型，支持中英文、多语种文本检测	ch_PP-OCRv2_det_cml.yml	3.0M	推理模型
ch_PP-OCRv2_det	原始超轻量模型，支持中英文、多语种文本检测	ch_PP-OCRv2_det_cml.yml	3.0M	推理模型 / 训练模型
ch_ppocr_mobile_slim_v2.0_det	slim裁剪版超轻量模型，支持中英文、多语种文本检测	ch_det_mv3_db_v2.0.yml	2.60M	推理模型
ch_ppocr_mobile_v2.0_det	原始超轻量模型，支持中英文、多语种文本检测	ch_det_mv3_db_v2.0.yml	3.0M	推理模型 / 训练模型
ch_ppocr_server_v2.0_det	通用模型，支持中英文、多语种文本检测，比超轻量模型更大，但效果更好	ch_det_res18_db_v2.0.yml	47.0M	推理模型 / 训练模型

1.2 英文检测模型

模型名称	模型简介	配置文件	推理模型大小	下载地址
en_PP-OCRv3_det_slim	【最新】slim量化版超轻量模型，支持英文、数字检测	ch_PP-OCRv3_det_cml.yml	1.1M	推理模型 / 训练模型 / nb模型
en_PP-OCRv3_det	【最新】原始超轻量模型，支持英文、数字检测	ch_PP-OCRv3_det_cml.yml	3.8M	推理模型 / 训练模型

注：英文检测模型与中文检测模型结构完全相同，只有训练数据不同，在此仅提供相同的配置文件。

1.3 多语言检测模型

模型名称	模型简介	配置文件	推理模型大小	下载地址
ml_PP-OCRv3_det_slim	【最新】slim量化版超轻量模型，支持多语言检测	ch_PP-OCRv3_det_cml.yml	1.1M	推理模型 / 训练模型 / nb模型
ml_PP-OCRv3_det	【最新】原始超轻量模型，支持多语言检测	ch_PP-OCRv3_det_cml.yml	3.8M	推理模型 / 训练模型

注：多语言检测模型与中文检测模型结构完全相同，只有训练数据不同，在此仅提供相同的配置文件。

2. 文本识别模型

2.1 中文识别模型

模型名称	模型简介	配置文件	推理模型大小	下载地址
ch_PP-OCRv4_rec	【最新】超轻量模型，支持中英文、数字识别	ch_PP-OCRv4_rec_distill.yml	10M	推理模型 / 训练模型
ch_PP-OCRv4_server_rec	【最新】高精度模型，支持中英文、数字识别	ch_PP-OCRv4_rec_hgnet.yml	88M	推理模型 / 训练模型
ch_PP-OCRv3_rec_slim	slim量化版超轻量模型，支持中英文、数字识别	ch_PP-OCRv3_rec_distillation.yml	4.9M	推理模型 / 训练模型 / nb模型
ch_PP-OCRv3_rec	原始超轻量模型，支持中英文、数字识别	ch_PP-OCRv3_rec_distillation.yml	12.4M	推理模型 / 训练模型
ch_PP-OCRv2_rec_slim	slim量化版超轻量模型，支持中英文、数字识别	ch_PP-OCRv2_rec.yml	9.0M	推理模型 / 训练模型
ch_PP-OCRv2_rec	原始超轻量模型，支持中英文、数字识别	ch_PP-OCRv2_rec_distillation.yml	8.50M	推理模型 / 训练模型
ch_ppocr_mobile_slim_v2.0_rec	slim裁剪量化版超轻量模型，支持中英文、数字识别	rec_chinese_lite_train_v2.0.yml	6.0M	推理模型 / 训练模型
ch_ppocr_mobile_v2.0_rec	原始超轻量模型，支持中英文、数字识别	rec_chinese_lite_train_v2.0.yml	5.20M	推理模型 / 训练模型 / 预训练模型
ch_ppocr_server_v2.0_rec	通用模型，支持中英文、数字识别	rec_chinese_common_train_v2.0.yml	94.8M	推理模型 / 训练模型 / 预训练模型

说明： 训练模型是基于预训练模型在真实数据与竖排合成文本数据上finetune得到的模型，在真实应用场景中有着更好的表现，预训练模型则是直接基于全量真实数据与合成数据训练得到，更适合用于在自己的数据集上finetune。

2.2 英文识别模型

模型名称	模型简介	配置文件	推理模型大小	下载地址
en_PP-OCRv4_rec	【最新】原始超轻量模型，支持英文、数字识别	en_PP-OCRv4_rec.yml	9.7M	推理模型 / 训练模型
en_PP-OCRv3_rec_slim	slim量化版超轻量模型，支持英文、数字识别	en_PP-OCRv3_rec.yml	3.2M	推理模型 / 训练模型 / nb模型
en_PP-OCRv3_rec	原始超轻量模型，支持英文、数字识别	en_PP-OCRv3_rec.yml	9.6M	推理模型 / 训练模型
en_number_mobile_slim_v2.0_rec	slim裁剪量化版超轻量模型，支持英文、数字识别	rec_en_number_lite_train.yml	2.7M	推理模型 / 训练模型
en_number_mobile_v2.0_rec	原始超轻量模型，支持英文、数字识别	rec_en_number_lite_train.yml	2.6M	推理模型 / 训练模型

注意： 所有英文识别模型的字典文件均为ppocr/utils/en_dict.txt

2.3 多语言识别模型（更多语言持续更新中...）

模型名称	字典文件	模型简介	配置文件	推理模型大小	下载地址
korean_PP-OCRv3_rec	ppocr/utils/dict/korean_dict.txt	韩文识别	korean_PP-OCRv3_rec.yml	11.0M	推理模型 / 训练模型
japan_PP-OCRv3_rec	ppocr/utils/dict/japan_dict.txt	日文识别	japan_PP-OCRv3_rec.yml	11.0M	推理模型 / 训练模型
chinese_cht_PP-OCRv3_rec	ppocr/utils/dict/chinese_cht_dict.txt	中文繁体识别	chinese_cht_PP-OCRv3_rec.yml	12.0M	推理模型 / 训练模型
te_PP-OCRv3_rec	ppocr/utils/dict/te_dict.txt	泰卢固文识别	te_PP-OCRv3_rec.yml	9.6M	推理模型 / 训练模型
ka_PP-OCRv3_rec	ppocr/utils/dict/ka_dict.txt	卡纳达文识别	ka_PP-OCRv3_rec.yml	9.9M	推理模型 / 训练模型
ta_PP-OCRv3_rec	ppocr/utils/dict/ta_dict.txt	泰米尔文识别	ta_PP-OCRv3_rec.yml	9.6M	推理模型 / 训练模型
latin_PP-OCRv3_rec	ppocr/utils/dict/latin_dict.txt	拉丁文识别	latin_PP-OCRv3_rec.yml	9.7M	推理模型 / 训练模型
arabic_PP-OCRv3_rec	ppocr/utils/dict/arabic_dict.txt	阿拉伯字母	arabic_PP-OCRv3_rec.yml	9.6M	推理模型 / 训练模型
cyrillic_PP-OCRv3_rec	ppocr/utils/dict/cyrillic_dict.txt	斯拉夫字母	cyrillic_PP-OCRv3_rec.yml	9.6M	推理模型 / 训练模型
devanagari_PP-OCRv3_rec	ppocr/utils/dict/devanagari_dict.txt	梵文字母	devanagari_PP-OCRv3_rec.yml	9.9M	推理模型 / 训练模型

查看完整语种列表与使用教程请参考: 多语言模型

3. 文本方向分类模型

模型名称	模型简介	配置文件	推理模型大小	下载地址
ch_ppocr_mobile_slim_v2.0_cls	slim量化版模型，对检测到的文本行文字角度分类	cls_mv3.yml	2.1M	推理模型 / 训练模型 / nb模型
ch_ppocr_mobile_v2.0_cls	原始分类器模型，对检测到的文本行文字角度分类	cls_mv3.yml	1.38M	推理模型 / 训练模型

4. Paddle-Lite 模型

Paddle-Lite 是一个高性能、轻量级、灵活性强且易于扩展的深度学习推理框架，它可以对inference模型进一步优化，得到适用于移动端/IoT端等端侧部署场景的nb模型。一般建议基于量化模型进行转换，因为可以将模型以INT8形式进行存储与推理，从而进一步减小模型大小，提升模型速度。

本节主要列出PP-OCRv2以及更早版本的检测与识别nb模型，最新版本的nb模型可以直接从上面的模型列表中获得。

模型版本	模型简介	模型大小	检测模型	文本方向分类模型	识别模型	Paddle-Lite版本
PP-OCRv2	蒸馏版超轻量中文OCR移动端模型	11.0M	下载地址	下载地址	下载地址	v2.10
PP-OCRv2(slim)	蒸馏版超轻量中文OCR移动端模型	4.6M	下载地址	下载地址	下载地址	v2.10
PP-OCRv2	蒸馏版超轻量中文OCR移动端模型	11.0M	下载地址	下载地址	下载地址	v2.9
PP-OCRv2(slim)	蒸馏版超轻量中文OCR移动端模型	4.9M	下载地址	下载地址	下载地址	v2.9
V2.0	ppocr_v2.0超轻量中文OCR移动端模型	7.8M	下载地址	下载地址	下载地址	v2.9
V2.0(slim)	ppocr_v2.0超轻量中文OCR移动端模型	3.3M	下载地址	下载地址	下载地址	v2.9

22 KiB Raw Blame History Unescape Escape