PaddleOCR 3.5 引入 Transformers 后端,文档解析更贴合 Hugging Face 生态
•27 阅读•5分钟•应用
Hugging FaceTransformersPaddlePaddlePP-OCRv5文档AI
•27 阅读•5分钟•应用

关键更新
- 后端可选:通过
engine="transformers"参数,PaddleOCR 支持将原有的 Paddle 静态图或动态图后端切换为 Transformers。 - 统一配置:
engine_config可传入 dtype、设备、注意力实现等底层选项,实现与 Hugging Face Hub 完全兼容的模型管理。 - 模型覆盖:PP‑OCRv5 系列 OCR 模型以及 PaddleOCR‑VL 1.5 文档解析模型均已适配 Transformers 后端。
“PaddleOCR 3.5 并非要取代原有后端,而是提供了更灵活的选择,让开发者可以在熟悉的 PyTorch/Transformers 生态中直接使用 OCR 能力。”—— PaddlePaddle 官方博客
为何重要
在 RAG、Document AI、智能客服等场景中,文档的前置处理往往是系统可靠性的瓶颈。传统流程需要手动串联 PaddleOCR、独立的模型服务以及自研的文本抽取代码,集成成本高、维护难度大。
PaddleOCR 3.5 将 OCR 与文档解析管线封装在 PaddleOCR 类内部,开发者只需在代码中切换后端即可完成:
from paddleocr import PaddleOCR
ocr = PaddleOCR(
device="gpu:0",
engine="transformers",
engine_config={"dtype": "float32"}
)
results = ocr.predict("your_image.png")
这意味着:
- 统一模型管理:所有模型均可通过 Hugging Face Hub 下载、版本控制、审计。
- 开发体验一致:团队已在 Transformers 上构建的实验、部署脚本可直接复用,无需额外适配 Paddle 静态图。
- 更易扩展:后续可利用 Transformers 插件(如 LoRA、DeepSpeed)对 OCR 模型进行轻量微调或加速。
快速上手
- 环境准备(CUDA 12.6 为例):
python -m pip install torch torchvision torchaudio
--index-url https://download.pytorch.org/whl/cu126
python -m pip install "paddleocr==3.5.0" "paddlex==3.5.2" "transformers>=5.4.0"
- 命令行调用:
paddleocr ocr -i https://example.com/img.png
--device gpu:0
--engine transformers
- Python API:如上代码示例所示,可通过
engine_config调整为bfloat16、sdpa等高效配置。
典型使用场景
- 企业文档检索:将 PDF、扫描件转为结构化文本后,直接喂入 LLM,实现精准问答。
- 多模态 RAG:结合 Vision‑LLM,利用 OCR 提取图表文字,实现图文混合检索。
- 智能客服:在用户上传证件或票据时,实时解析关键信息并触发业务流程。
生态与社区
PaddleOCR 3.5 已在 Hugging Face Spaces 上提供演示:https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo。
项目源码、文档及模型均托管于 Hugging Face 与 GitHub,社区贡献者可通过 Pull Request 直接参与后端适配工作。官方特别感谢 Anton Vlasjuk、Raushan Turganbay 与 Yoni Gozlan 对代码审查和文档完善的贡献。
结语:此轮发布的核心价值在于“桥接”。它让 PaddleOCR 的强大 OCR 能力与 Transformers 生态的灵活部署相结合,为构建端到端 Document AI 流程提供了更低的技术门槛,也为后续的模型微调与加速奠定了基础。开发者可根据业务需求在性能与易用性之间自由切换后端,真正实现“一站式”文档智能化。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。