PaddleOCR/ppstructure/pdf2word/README.md

51 lines
2.8 KiB
Markdown
Raw Permalink Normal View History

2022-08-24 08:44:43 +08:00
# PDF2WORD
2022-10-22 23:58:44 +08:00
PDF2Word是PaddleOCR社区开发者 [whjdark](https://github.com/whjdark) 基于PP-StructureV2版面分析与恢复模型实现的PDF转换Word应用程序提供可直接安装的exe应用程序**方便Windows用户免环境配置运行**
2022-08-24 16:34:36 +08:00
2022-08-24 08:44:43 +08:00
## 1.使用
### 应用程序
1. 下载与安装针对Windows用户根据[软件下载]()一节下载软件后,运行 `pdf2word.exe` 。若您下载的是lite版本安装过程中会在线下载环境依赖、模型等必要资源安装时间较长请确保网络畅通。serve版本打包了相关依赖安装时间较短可按需下载。
2. 转换由于PP-Structure根据中英文数据分别进行适配在转换相应文件时可**根据文档语言进行相应选择**。
### 脚本运行
2022-10-22 23:58:44 +08:00
3. 打开结果:点击`显示结果`,即可打开转换完成后的文件夹
> 注意:
>
> - 初次安装程序根据不同设备需要等待1-2分钟不等
> - 使用Office与WPS打开的Word结果会出现不同推荐以Office为准
> - 本程序使用 [QPT](https://github.com/QPT-Family/QPT) 进行应用程序打包,感谢 [GT-ZhangAcer](https://github.com/GT-ZhangAcer) 对打包过程的支持
2022-10-25 18:20:00 +08:00
> - 应用程序仅支持正版win1011系统不支持盗版Windows系统若在安装过程中出现报错或缺少依赖推荐直接使用 `paddleocr` whl包应用PDF2Word功能详情可查看[链接](https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/ppstructure/docs/quickstart.md)
2022-10-22 23:58:44 +08:00
### 脚本启动界面
首次运行需要将切换路径到PaddleOCR文件目录 ,然后运行代码
2022-08-24 08:44:43 +08:00
```
2022-10-22 23:58:44 +08:00
cd ./ppstructure/pdf2word
2022-08-24 08:44:43 +08:00
python pdf2word.py
```
2022-10-22 23:58:44 +08:00
### PaddleOCR whl包
针对Linux、Mac用户或已经拥有Python环境的用户**推荐安装 `paddleocr` whl包直接应用PDF2Word功能**,详情可查看[链接](https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/ppstructure/docs/quickstart.md)
<a name="download"></a>
2022-08-24 16:46:25 +08:00
## 2.软件下载
2022-08-24 08:44:43 +08:00
2023-12-11 11:41:57 +08:00
如需获取已打包程序,可以扫描下方二维码或者点击[链接](https://aistudio.baidu.com/community/channel/610) 进入AI Studio【PaddleX社区频道】免费获取20G OCR学习大礼包内含OCR场景应用集合包含数码管、液晶屏、车牌、高精度SVTR模型等7个垂类模型、《动手学OCR》电子书、课程回放视频、前沿论文等重磅资料
2022-08-24 08:44:43 +08:00
2022-08-24 16:34:36 +08:00
<div align="center">
2023-12-11 11:41:57 +08:00
<img src="https://user-images.githubusercontent.com/45199522/279737332-e9f960f7-f0e5-4b92-95fb-79313bee2d89.png" width = "150" height = "150",caption='' />
<p>飞桨AI套件【PaddleX】社区频道二维码</p>
2022-08-24 16:34:36 +08:00
</div>
2022-10-22 23:58:44 +08:00
## 3.版本说明
v0.2版新加入PDF解析功能仅提供full版本打包了所有依赖包与模型文件尽可能避免安装失败问题。若仍然安装失败推荐使用 `paddleocr` whl包