1 基础知识
1.1 软件简介
PaddleOCR旨在打造一套丰富、领先、实用的OCR工具库
PaddleOCR助力开发者训练出更好的模型,并应用落地
1.2 应用场景
– 金融场景(表单识别、票据识别)
– 工业场景(电表度数识别、车牌识别)
– 教育场景(手写识别、公式识别)
– 医疗场景(化验单识别)
1.3 训练部署
– 训练方式(单机训练、分布式训练、混合精度训练)
– 训练环境(Linux GPU/CPU、Linux DCU、Windows GPU/CPU、macOS)
– 模型压缩(剪枝、量化、蒸馏)
– 推理部署方式(Python/C++推理、Python/C++Serving服务化部署、openCL ARM GPU、Paddle2ONNX、ARM CPU Jetson、Paddle.js、云上飞桨)
1.4 产业级特色模型
1.4.1 PP-OCR(超轻量OCR系统)
– PP-OCRv4,检测+方向分类+识别=14.6M
– 英文数字模型,专注提升纯英文数据场景效果
– 多语言模型,支持韩语、日语、德语、法语等约80种语言
1.4.2 PP-Structure(智能文档分析系统)
– 支持版面分析
– 支持表格识别(含Excel导出)
– 支持关键信息抽取
– 支持版面复原
– 支持PDF转Word
1.4.3 PP-ChatOCR(通用信息提取系统)
– 基于LLMs的信息抽取
– 支持通用信息提取
– 支持指令微调
1.5 前沿算法
– 文本检测(EAST、DB、SAST、PSENet、FCENet等)
– 文本识别(CRNN、SRN、NRTR、SVTR、ABINet等)
– 端到端(PGNet)
– 版面分析(Layoutparser、PP-Picodet)
– 表格识别(TableRec-RARE、TableMaster、SLANet)
– 关键信息抽取(SDMGR、LayoutLM、LayoutLMv2、LayoutXLM、VI-LayoutXLM)
1.6 数据工具
– 半自动标注工具PPOCRLabel
– 数据合成工具Style-Text
1.7 安装要求
1.7.1 操作系统要求
– Windows 7/8/10 专业版/企业版
– Ubuntu 18.04/20.04
– CentOS 7
– MacOS 10.x/11.x/12.x/13.x/14.x
注:操作系统要求是 64 位版本
1.7.2 处理器要求
– 处理器支持 MKL
– 处理器架构是x86_64(或称作x64、Intel 64、AMD64)架构,目前 PaddlePaddle 不支持arm64架构
1.7.3 Python和pip版本要求
– Python 的版本要求 3.8/3.9/3.10/3.11/3.12
– Python 具有 pip, 且 pip 的版本要求 20.2.2+
– Python 和 pip 要求是 64 位版本
2 最佳实践
2.1 系统环境
OS = Oracle Linux 9.x
IP Address = any
2.2 软件环境
2.2.1 安装部署Anaconda
请注意,我们部署的是“Anaconda3-2024.10-1-Linux-x86_64.sh”版本,如果你需要国内源,请参阅如下章节,
2.2.2 创建执行用户并切换
useradd -d /data/python python su - python
2.3 配置Python虚拟环境
2.3.1 创建python虚拟环境并激活
conda create -n esri_env python=3.9
然后,你可以使用如下命令浏览当前的虚拟环境,
conda env list
可见如下显示,
# conda environments: # base /usr/anaconda3 esri_env /usr/anaconda3/envs/esri_env
如果你要使用该环境,你需要执行激活命令,
conda activate esri_env
如果你需要反向操作,请执行如下命令(可选),
conda deactivate conda remove -n esri_env --all conda env list
2.3.2 确认Python版本和系统环境
python -V
可见如下显示,
Python 3.9.20
python3 -c "import platform;print(platform.architecture()[0]);print(platform.machine())"
可见如下显示,
64bit x86_64
2.3.3 设置安装源(可选)
如果你需要设置国内源或者企业内部源,你可以参阅如下章节,
2.4 部署paddleocr
2.4.1 安装软件包
conda install esri::paddleocr
2.4.2 确认安装
pip list | egrep "paddlepaddle|paddleocr"
可见如下显示,
paddleocr 2.0.6 paddlepaddle-gpu 2.1.0.post112
注:由于没有GPU硬件环境,后面的测试先跳过。
参阅文档
=====================
https://repo.anaconda.com/
https://anaconda.org/
https://www.paddlepaddle.org.cn/documentation/docs/zh/install/conda/linux-conda.html#anchor-0
https://anaconda.org/esri/paddlepaddle
https://anaconda.org/esri/paddleocr
没有评论