PaddleOCR/ppstructure/pdf2word/README.md

2.5 KiB
Raw Blame History

PDF2Word

PDF2Word是PaddleOCR社区开发者 whjdark 基于PP-StructureV2版面分析与恢复模型实现的PDF转换Word应用程序提供可直接安装的exe应用程序方便Windows用户离线、免环境配置运行

1.使用

应用程序

  1. 下载与安装针对Windows用户根据软件下载一节下载软件并解压后运行 启动程序.exe

    版本说明:

    • mini版体积较小在安装过程中会自动下载依赖包、模型等必要资源安装时间较长请确保网络畅通。
    • full版打包了依赖包与模型文件故压缩包较大相对等待时间较短可按需下载。
  2. 打开文件与转换:

    • 中文转换、英文转换 :针对 图片型PDF 文件的转换方法,即当PDF文件中的文字无法复制粘贴时推荐使用本方法通过OCR转换文件由于PP-Structure根据中英文数据分别进行适配在转换相应文件时可根据文档语言进行相应选择
    • PDF解析 针对可以复制文字的PDF文件推荐直接点击 PDF解析,获得更加精准的效果。
  3. 打开结果:点击显示结果,即可打开转换完成后的文件夹

注意:

  • 初次安装程序根据不同设备需要等待1-2分钟不等
  • 使用Office与WPS打开的Word结果会出现不同推荐以Office为准
  • 本程序使用 QPT 进行应用程序打包,感谢 GT-ZhangAcer 对打包过程的支持

脚本启动界面

首次运行需要将切换路径到 /ppstructure/pdf2word ,然后运行代码

python pdf2word.py

PaddleOCR whl包

针对Linux、Mac用户推荐安装 paddleocr whl包直接应用版面恢复功能详情可查看链接

2.软件下载

如需获取已打包程序可以扫描下方二维码关注公众号填写问卷后加入PaddleOCR官方交流群免费获取20G OCR学习大礼包内含OCR场景应用集合包含数码管、液晶屏、车牌、高精度SVTR模型等10个垂类模型、《动手学OCR》电子书、课程回放视频、前沿论文等重磅资料