diff --git a/docs/version3.x/algorithm/PP-StructureV3/PP-StructureV3.en.md b/docs/version3.x/algorithm/PP-StructureV3/PP-StructureV3.en.md index fb85f131ac..4f234883b8 100644 --- a/docs/version3.x/algorithm/PP-StructureV3/PP-StructureV3.en.md +++ b/docs/version3.x/algorithm/PP-StructureV3/PP-StructureV3.en.md @@ -307,7 +307,6 @@ The above data is from: * Paddle 3.0 * PaddleOCR 3.0.0 -* PaddleX 3.0.0 * MinerU 1.3.10 * CUDA 11.8 * cuDNN 8.9 @@ -518,14 +517,14 @@ Use default configuration. Success Number/Total Number - 4卡*1 + 4 GPUs * 1 4 1.69 2.36 1 - 4卡*4 + 4 GPUs * 4 16 4.05 3.87 diff --git a/docs/version3.x/algorithm/PP-StructureV3/PP-StructureV3.md b/docs/version3.x/algorithm/PP-StructureV3/PP-StructureV3.md index a9a3217987..92a9f44178 100644 --- a/docs/version3.x/algorithm/PP-StructureV3/PP-StructureV3.md +++ b/docs/version3.x/algorithm/PP-StructureV3/PP-StructureV3.md @@ -307,7 +307,6 @@ * Paddle 3.0正式版 * PaddleOCR 3.0.0正式版 -* PaddleX 3.0.0正式版 * MinerU 1.3.10 * CUDA 11.8 * cuDNN 8.9 @@ -315,98 +314,6 @@ ## 3.2 测试数据 1. 本地推理 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Pipeline ConfigurationsAverage time per page (s)Average CPU (%)Peak RAM Usage (MB)Average RAM Usage (MB)Average GPU (%)Peak VRAM Usage (MB)Average VRAM Usage (MB)
PP-StructureV3Basic1.77111.46822.45278.238.91740316909.3
Use chart recognition pipeline4.09105.356284085.124.71740317030.9
Use PP-OCRv5_mobile_det + PP-OCRv5_mobile_rec1.56113.76712.9505229.11092910840.7
Use PP-FormulaNet_plus-M1.42112.96944.15193.6381639015840
Use PP-OCRv5_mobile_det + PP-OCRv5_mobile_rec + PP-FormulaNet_plus-M1.15114.86666.55105.426.186068517.2
Use PP-OCRv5_mobile_det + PP-OCRv5_mobile_rec + PP-FormulaNet_plus-M, and max input length of text detection set to 12000.991137172.95686.429.287768680.8
MinerU-1.57142.913655.81208343.3324069915.4
- 测试硬件:NVIDIA Tesla V100 + Intel Xeon Gold 6271C @@ -601,14 +508,14 @@
- - - - - + + + + + - 4卡*1 + diff --git a/docs/version3.x/module_usage/doc_img_orientation_classification.md b/docs/version3.x/module_usage/doc_img_orientation_classification.md index 24291b216c..7336b4b465 100644 --- a/docs/version3.x/module_usage/doc_img_orientation_classification.md +++ b/docs/version3.x/module_usage/doc_img_orientation_classification.md @@ -168,7 +168,7 @@ for res in output:
Instances NumberConcurrent Requests NumberThroughputAverage Latency (s)Success Number/Total Number实例数并发请求数吞吐平均时延(s)成功请求数/总请求数
4卡*1 4 1.69 2.36
-* 其中,`model_name` 必须指定,指定 `model_name` 后,默认使用 PaddleX 内置的模型参数,在此基础上,指定 `model_dir` 时,使用用户自定义的模型。 +* 其中,`model_name` 必须指定,指定 `model_name` 后,默认使用内置的模型参数,在此基础上,指定 `model_dir` 时,使用用户自定义的模型。 * 调用文档图像方向分类模型的 `predict()` 方法进行推理预测,该方法会返回一个结果列表。另外,本模块还提供了 `predict_iter()` 方法。两者在参数接受和结果返回方面是完全一致的,区别在于 `predict_iter()` 返回的是一个 `generator`,能够逐步处理和获取预测结果,适合处理大型数据集或希望节省内存的场景。可以根据实际需求选择使用这两种方法中的任意一种。`predict()` 方法参数有 `input` 和 `batch_size`,具体说明如下: diff --git a/docs/version3.x/module_usage/doc_vlm.md b/docs/version3.x/module_usage/doc_vlm.md index 3a723bcf4c..1b52ed804d 100644 --- a/docs/version3.x/module_usage/doc_vlm.md +++ b/docs/version3.x/module_usage/doc_vlm.md @@ -148,7 +148,7 @@ for res in results: -* 其中,`model_name` 必须指定,指定 `model_name` 后,默认使用 PaddleX 内置的模型参数,在此基础上,指定 `model_dir` 时,使用用户自定义的模型。 +* 其中,`model_name` 必须指定,指定 `model_name` 后,默认使用内置的模型参数,在此基础上,指定 `model_dir` 时,使用用户自定义的模型。 * 调用文档类视觉语言模型的 `predict()` 方法进行推理预测,该方法会返回一个结果列表。另外,本模块还提供了 `predict_iter()` 方法。两者在参数接受和结果返回方面是完全一致的,区别在于 `predict_iter()` 返回的是一个 `generator`,能够逐步处理和获取预测结果,适合处理大型数据集或希望节省内存的场景。可以根据实际需求选择使用这两种方法中的任意一种。`predict()` 方法参数有 `input` 、 `batch_size`,具体说明如下: diff --git a/docs/version3.x/module_usage/formula_recognition.md b/docs/version3.x/module_usage/formula_recognition.md index b54950f426..60eabc3aeb 100644 --- a/docs/version3.x/module_usage/formula_recognition.md +++ b/docs/version3.x/module_usage/formula_recognition.md @@ -186,7 +186,7 @@ sudo apt-get install texlive texlive-latex-base texlive-xetex latex-cjk-all texl model_name 模型名称 str -所有PaddleX支持的模型名称 +所有支持的模型名称 无 @@ -219,7 +219,7 @@ sudo apt-get install texlive texlive-latex-base texlive-xetex latex-cjk-all texl -* 其中,`model_name` 必须指定,指定 `model_name` 后,默认使用 PaddleX 内置的模型参数,在此基础上,指定 `model_dir` 时,使用用户自定义的模型。 +* 其中,`model_name` 必须指定,指定 `model_name` 后,默认使用内置的模型参数,在此基础上,指定 `model_dir` 时,使用用户自定义的模型。 * 调用公式识别模型的 `predict()` 方法进行推理预测,该方法会返回一个结果列表。另外,本模块还提供了 `predict_iter()` 方法。两者在参数接受和结果返回方面是完全一致的,区别在于 `predict_iter()` 返回的是一个 `generator`,能够逐步处理和获取预测结果,适合处理大型数据集或希望节省内存的场景。可以根据实际需求选择使用这两种方法中的任意一种。`predict()` 方法参数有 `input` 和 `batch_size`,具体说明如下: diff --git a/docs/version3.x/module_usage/seal_text_detection.md b/docs/version3.x/module_usage/seal_text_detection.md index 5667f70046..65cfdb6193 100644 --- a/docs/version3.x/module_usage/seal_text_detection.md +++ b/docs/version3.x/module_usage/seal_text_detection.md @@ -45,7 +45,7 @@ comments: true
  • 性能测试环境
      -
    • 测试数据集:PaddleX自建数据集,包含500张圆形印章图像。
    • +
    • 测试数据集:自建的内部数据集,包含500张圆形印章图像。
    • 硬件配置:
      • GPU:NVIDIA Tesla T4
      • @@ -145,7 +145,7 @@ for res in output: model_name 模型名称 str -所有PaddleX支持的印章文本检测模型名称 +所有支持的印章文本检测模型名称 无 @@ -204,18 +204,6 @@ for res in output:
        • float: 大于0的任意浮点数
        • None: 如果设置为None, 将使用默认值:0.6
        - -None - - -max_candidates -输出的最大文本框数量 -int/None - -
          -
        • int: 大于0的任意整数 -
        • None: 如果设置为None, 将默认使用PaddleX官方模型配置中的该参数值
        - None @@ -226,7 +214,6 @@ for res in output:
        • float: 大于0的任意浮点数
        • None: 如果设置为None, 将使用默认值:0.5
        - None @@ -252,7 +239,7 @@ for res in output: -* 其中,`model_name` 必须指定,指定 `model_name` 后,默认使用 PaddleX 内置的模型参数,在此基础上,指定 `model_dir` 时,使用用户自定义的模型。 +* 其中,`model_name` 必须指定,指定 `model_name` 后,默认使用内置的模型参数,在此基础上,指定 `model_dir` 时,使用用户自定义的模型。 * 调用印章文本检测模型的 `predict()` 方法进行推理预测,该方法会返回一个结果列表。另外,本模块还提供了 `predict_iter()` 方法。两者在参数接受和结果返回方面是完全一致的,区别在于 `predict_iter()` 返回的是一个 `generator`,能够逐步处理和获取预测结果,适合处理大型数据集或希望节省内存的场景。可以根据实际需求选择使用这两种方法中的任意一种。`predict()` 方法参数有 `input`、 `batch_size`、 `limit_side_len`、 `limit_type`、 `thresh`、 `box_thresh`、 `max_candidates`、`unclip_ratio`和`use_dilation`,具体说明如下: diff --git a/docs/version3.x/module_usage/table_cells_detection.md b/docs/version3.x/module_usage/table_cells_detection.md index 1e2981332b..f972aa0812 100644 --- a/docs/version3.x/module_usage/table_cells_detection.md +++ b/docs/version3.x/module_usage/table_cells_detection.md @@ -40,7 +40,7 @@ comments: true
        • 性能测试环境
            -
          • 测试数据集:PaddleX 内部自建评测集。
          • +
          • 测试数据集:自建的内部评测集。
          • 硬件配置:
            • GPU:NVIDIA Tesla T4
            • @@ -170,7 +170,7 @@ for res in output: img_size -输入图像大小;如果不指定,将默认使用PaddleX官方模型配置 +输入图像大小 int/list
                @@ -182,7 +182,7 @@ for res in output: threshold -用于过滤掉低置信度预测结果的阈值;如果不指定,将默认使用PaddleX官方模型配置。在表格单元格检测任务中,适当降低阈值可能有助于获得更准确的结果 +用于过滤掉低置信度预测结果的阈值。在表格单元格检测任务中,适当降低阈值可能有助于获得更准确的结果 float/dict
                  @@ -194,7 +194,7 @@ for res in output: -* 其中,`model_name` 必须指定,指定 `model_name` 后,默认使用 PaddleX 内置的模型参数,在此基础上,指定 `model_dir` 时,使用用户自定义的模型。 +* 其中,`model_name` 必须指定,在此基础上,指定 `model_dir` 时,使用用户自定义的模型。 * 调用表格单元格检测模型的 `predict()` 方法进行推理预测,该方法会返回一个结果列表。另外,本模块还提供了 `predict_iter()` 方法。两者在参数接受和结果返回方面是完全一致的,区别在于 `predict_iter()` 返回的是一个 `generator`,能够逐步处理和获取预测结果,适合处理大型数据集或希望节省内存的场景。可以根据实际需求选择使用这两种方法中的任意一种。`predict()` 方法参数有 `input`、`batch_size`和`threshold`,具体说明如下: @@ -232,7 +232,7 @@ for res in output: threshold -用于过滤掉低置信度预测结果的阈值;如果不指定,将默认使用 creat_model 指定的 threshold 参数,如果 creat_model 也没有指定,则默认使用PaddleX官方模型配置 +用于过滤掉低置信度预测结果的阈值 float/dict
                    diff --git a/docs/version3.x/module_usage/table_classification.md b/docs/version3.x/module_usage/table_classification.md index 979a053862..42111b856a 100644 --- a/docs/version3.x/module_usage/table_classification.md +++ b/docs/version3.x/module_usage/table_classification.md @@ -32,7 +32,7 @@ comments: true
                    • 性能测试环境
                        -
                      • 测试数据集:PaddleX 内部自建评测数据集。
                      • +
                      • 测试数据集:自建的内部评测数据集。
                      • 硬件配置:
                        • GPU:NVIDIA Tesla T4
                        • @@ -158,7 +158,7 @@ for res in output: -* 其中,`model_name` 必须指定,指定 `model_name` 后,默认使用 PaddleX 内置的模型参数,在此基础上,指定 `model_dir` 时,使用用户自定义的模型。 +* 其中,`model_name` 必须指定,在此基础上,指定 `model_dir` 时,使用用户自定义的模型。 * 调用表格分类模型的 `predict()` 方法进行推理预测,该方法会返回一个结果列表。另外,本模块还提供了 `predict_iter()` 方法。两者在参数接受和结果返回方面是完全一致的,区别在于 `predict_iter()` 返回的是一个 `generator`,能够逐步处理和获取预测结果,适合处理大型数据集或希望节省内存的场景。可以根据实际需求选择使用这两种方法中的任意一种。`predict()` 方法参数有 `input` 和 `batch_size`,具体说明如下: @@ -270,8 +270,6 @@ for res in output: -关于更多 PaddleX 的单模型推理的 API 的使用方法,可以参考[PaddleX单模型Python脚本使用说明](../../instructions/model_python_API.md)。 - ## 四、二次开发 由于 PaddleOCR 并不直接提供表格分类模块的训练,因此,如果需要训练表格分类模型,可以参考 [PaddleX 表格分类模块二次开发](https://paddlepaddle.github.io/PaddleX/latest/module_usage/tutorials/ocr_modules/table_classification.html#_4)部分进行训练。训练后的模型可以无缝集成到 PaddleOCR 的 API 中进行推理。 diff --git a/docs/version3.x/module_usage/table_structure_recognition.md b/docs/version3.x/module_usage/table_structure_recognition.md index 153eae189e..899b96bf47 100644 --- a/docs/version3.x/module_usage/table_structure_recognition.md +++ b/docs/version3.x/module_usage/table_structure_recognition.md @@ -56,7 +56,7 @@ comments: true
                          • 性能测试环境
                              -
                            • 测试数据集:PaddleX 内部自建高难度中文表格识别数据集。
                            • +
                            • 测试数据集:内部自建的高难度中文表格识别数据集。
                            • 硬件配置:
                              • GPU:NVIDIA Tesla T4
                              • @@ -147,7 +147,7 @@ for res in output: model_name 模型名称 str -所有PaddleX支持的模型名称 +所有支持的模型名称 无 @@ -180,7 +180,7 @@ for res in output: -* 其中,`model_name` 必须指定,指定 `model_name` 后,默认使用 PaddleX 内置的模型参数,在此基础上,指定 `model_dir` 时,使用用户自定义的模型。 +* 其中,`model_name` 必须指定,在此基础上,指定 `model_dir` 时,使用用户自定义的模型。 * 调用表格结构识别模型的 `predict()` 方法进行推理预测,该方法会返回一个结果列表。另外,本模块还提供了 `predict_iter()` 方法。两者在参数接受和结果返回方面是完全一致的,区别在于 `predict_iter()` 返回的是一个 `generator`,能够逐步处理和获取预测结果,适合处理大型数据集或希望节省内存的场景。可以根据实际需求选择使用这两种方法中的任意一种。`predict()` 方法参数有 `input` 和 `batch_size`,具体说明如下: diff --git a/docs/version3.x/module_usage/text_detection.md b/docs/version3.x/module_usage/text_detection.md index 276658c567..a672b462a9 100644 --- a/docs/version3.x/module_usage/text_detection.md +++ b/docs/version3.x/module_usage/text_detection.md @@ -163,7 +163,7 @@ for res in output: model_name 模型名称 str -所有PaddleX支持的文本检测模型名称 +所有支持的文本检测模型名称 无 @@ -186,8 +186,7 @@ for res in output: int/None
                                  -
                                • int: 大于0的任意整数 -
                                • None: 如果设置为None, 将默认使用PaddleX官方模型配置中的该参数值
                                +
                              • int: 大于0的任意整数
                              None @@ -197,8 +196,7 @@ for res in output: str/None
                                -
                              • str: 支持min和max. min表示保证图像最短边不小于det_limit_side_len, max: 表示保证图像最长边不大于limit_side_len -
                              • None: 如果设置为None, 将默认使用PaddleX官方模型配置中的该参数值
                              +
                            • str: 支持min和max. min表示保证图像最短边不小于det_limit_side_len, max: 表示保证图像最长边不大于limit_side_len。
                            None @@ -210,7 +208,7 @@ for res in output:
                            • float: 大于0的任意浮点数 -
                            • None: 如果设置为None, 将默认使用PaddleX官方模型配置中的该参数值
                            +
                          None @@ -221,7 +219,7 @@ for res in output:
                          • float: 大于0的任意浮点数 -
                          • None: 如果设置为None, 将默认使用PaddleX官方模型配置中的该参数值
                          +
                        None @@ -232,7 +230,7 @@ for res in output:
                        • float: 大于0的任意浮点数 -
                        • None: 如果设置为None, 将默认使用PaddleX官方模型配置中的该参数值
                        +
                      None diff --git a/docs/version3.x/module_usage/text_image_unwarping.md b/docs/version3.x/module_usage/text_image_unwarping.md index 9e524fc230..f86e849a37 100644 --- a/docs/version3.x/module_usage/text_image_unwarping.md +++ b/docs/version3.x/module_usage/text_image_unwarping.md @@ -127,7 +127,7 @@ for res in output: model_name 模型名称 str -所有PaddleX支持的模型名称 +所有支持的模型名称 无 @@ -160,7 +160,7 @@ for res in output: -* 其中,`model_name` 必须指定,指定 `model_name` 后,默认使用 PaddleX 内置的模型参数,在此基础上,指定 `model_dir` 时,使用用户自定义的模型。 +* 其中,`model_name` 必须指定,在此基础上,指定 `model_dir` 时,使用用户自定义的模型。 * 调用图像矫正模型的 `predict()` 方法进行推理预测,该方法会返回一个结果列表。另外,本模块还提供了 `predict_iter()` 方法。两者在参数接受和结果返回方面是完全一致的,区别在于 `predict_iter()` 返回的是一个 `generator`,能够逐步处理和获取预测结果,适合处理大型数据集或希望节省内存的场景。可以根据实际需求选择使用这两种方法中的任意一种。`predict()` 方法参数有 `input` 和 `batch_size`,具体说明如下: diff --git a/docs/version3.x/module_usage/text_line_orientation_classification.md b/docs/version3.x/module_usage/text_line_orientation_classification.md index 76551e60f3..b88d009839 100644 --- a/docs/version3.x/module_usage/text_line_orientation_classification.md +++ b/docs/version3.x/module_usage/text_line_orientation_classification.md @@ -168,7 +168,7 @@ for res in output: -* 其中,`model_name` 必须指定,指定 `model_name` 后,默认使用 PaddleX 内置的模型参数,在此基础上,指定 `model_dir` 时,使用用户自定义的模型。 +* 其中,`model_name` 必须指定,在此基础上,指定 `model_dir` 时,使用用户自定义的模型。 * 调用文本行方向分类模型的 `predict()` 方法进行推理预测,该方法会返回一个结果列表。另外,本模块还提供了 `predict_iter()` 方法。两者在参数接受和结果返回方面是完全一致的,区别在于 `predict_iter()` 返回的是一个 `generator`,能够逐步处理和获取预测结果,适合处理大型数据集或希望节省内存的场景。可以根据实际需求选择使用这两种方法中的任意一种。`predict()` 方法参数有 `input` 和 `batch_size`,具体说明如下: diff --git a/docs/version3.x/module_usage/text_recognition.md b/docs/version3.x/module_usage/text_recognition.md index c53ed3bcdd..19a1a8b1be 100644 --- a/docs/version3.x/module_usage/text_recognition.md +++ b/docs/version3.x/module_usage/text_recognition.md @@ -452,7 +452,7 @@ for res in output: model_name 模型名称 str -所有PaddleX支持的模型名称 +所有支持的模型名称 无 @@ -485,7 +485,7 @@ for res in output: -* 其中,`model_name` 必须指定,指定 `model_name` 后,默认使用 PaddleX 内置的模型参数,在此基础上,指定 `model_dir` 时,使用用户自定义的模型。 +* 其中,`model_name` 必须指定,在此基础上,指定 `model_dir` 时,使用用户自定义的模型。 * 调用文本识别模型的 `predict()` 方法进行推理预测,该方法会返回一个结果列表。另外,本模块还提供了 `predict_iter()` 方法。两者在参数接受和结果返回方面是完全一致的,区别在于 `predict_iter()` 返回的是一个 `generator`,能够逐步处理和获取预测结果,适合处理大型数据集或希望节省内存的场景。可以根据实际需求选择使用这两种方法中的任意一种。`predict()` 方法参数有 `input` 和 `batch_size`,具体说明如下: diff --git a/docs/version3.x/pipeline_usage/PP-ChatOCRv4.en.md b/docs/version3.x/pipeline_usage/PP-ChatOCRv4.en.md index 36f88189f3..ac0d46d361 100644 --- a/docs/version3.x/pipeline_usage/PP-ChatOCRv4.en.md +++ b/docs/version3.x/pipeline_usage/PP-ChatOCRv4.en.md @@ -5,7 +5,7 @@ PP-ChatOCRv4-doc is a unique document and image intelligent analysis solution fr -The Document Scene Information Extraction v4 pipeline includes modules for **Layout Region Detection**, **Table Structure Recognition**, **Table Classification**, **Table Cell Localization**, **Text Detection**, **Text Recognition**, **Seal Text Detection**, **Text Image Rectification**, and **Document Image Orientation Classification**. The relevant models are integrated as sub-pipelines, and you can view the model configurations of different modules through the [pipeline configuration](../../../../paddlex/configs/pipelines/PP-ChatOCRv4-doc.yaml). +The Document Scene Information Extraction v4 pipeline includes modules for **Layout Region Detection**, **Table Structure Recognition**, **Table Classification**, **Table Cell Localization**, **Text Detection**, **Text Recognition**, **Seal Text Detection**, **Text Image Rectification**, and **Document Image Orientation Classification**. If you prioritize model accuracy, choose a model with higher accuracy. If you prioritize inference speed, select a model with faster inference. If you prioritize model storage size, choose a model with a smaller storage size. Benchmarks for some models are as follows: diff --git a/docs/version3.x/pipeline_usage/PP-ChatOCRv4.md b/docs/version3.x/pipeline_usage/PP-ChatOCRv4.md index 9528f542d7..c0fe33b0d1 100644 --- a/docs/version3.x/pipeline_usage/PP-ChatOCRv4.md +++ b/docs/version3.x/pipeline_usage/PP-ChatOCRv4.md @@ -10,7 +10,7 @@ PP-ChatOCRv4 是飞桨特色的文档和图像智能分析解决方案,结合 -PP-ChatOCRv4 产线中包含版面区域检测模块表格结构识别模块表格分类模块表格单元格定位模块文本检测模块文本识别模块印章文本检测模块文本图像矫正模块文档图像方向分类模块。其中相关的模型是以子产线的方式集成,您可以通过[产线配置](../../../../paddlex/configs/pipelines/PP-ChatOCRv4-doc.yaml)来查看不同模块的模型配置。 +PP-ChatOCRv4 产线中包含版面区域检测模块表格结构识别模块表格分类模块表格单元格定位模块文本检测模块文本识别模块印章文本检测模块文本图像矫正模块文档图像方向分类模块PP-ChatOCRv4 产线中包含以下9个模块。每个模块均可独立进行训练和推理,并包含多个模型。有关详细信息,请点击相应模块以查看文档。 diff --git a/docs/version3.x/pipeline_usage/seal_recognition.md b/docs/version3.x/pipeline_usage/seal_recognition.md index 923f84dc33..3bd55c8749 100644 --- a/docs/version3.x/pipeline_usage/seal_recognition.md +++ b/docs/version3.x/pipeline_usage/seal_recognition.md @@ -605,7 +605,7 @@ devanagari_PP-OCRv3_mobile_rec_infer.tar">推理模型/PaddleOCR算法模型挑战赛 - 赛题一:OCR端到端识别任务A榜评估集。
                    • ch_RepSVTR_rec:PaddleOCR算法模型挑战赛 - 赛题一:OCR端到端识别任务B榜评估集。
                    • 英文识别模型:自建的内部英文数据集。
                    • -
                    • 多语言识别模型:P自建的内部多语种数据集。
                    • +
                    • 多语言识别模型:自建的内部多语种数据集。
                    • 文本行方向分类模型:自建的内部数据集,覆盖证件和文档等多个场景,包含 1000 张图片。
                    • 印章文本检测模型:自建的内部数据集,包含500张圆形印章图像。