PaddleOCR 3.5 引入 Transformers 后端,文档解析更贴合 Hugging Face 生态

27 阅读5分钟应用
PaddleOCR 3.5 引入 Transformers 后端,文档解析更贴合 Hugging Face 生态

关键更新

  • 后端可选:通过 engine="transformers" 参数,PaddleOCR 支持将原有的 Paddle 静态图或动态图后端切换为 Transformers。
  • 统一配置engine_config 可传入 dtype、设备、注意力实现等底层选项,实现与 Hugging Face Hub 完全兼容的模型管理。
  • 模型覆盖:PP‑OCRv5 系列 OCR 模型以及 PaddleOCR‑VL 1.5 文档解析模型均已适配 Transformers 后端。

“PaddleOCR 3.5 并非要取代原有后端,而是提供了更灵活的选择,让开发者可以在熟悉的 PyTorch/Transformers 生态中直接使用 OCR 能力。”—— PaddlePaddle 官方博客

为何重要

在 RAG、Document AI、智能客服等场景中,文档的前置处理往往是系统可靠性的瓶颈。传统流程需要手动串联 PaddleOCR、独立的模型服务以及自研的文本抽取代码,集成成本高、维护难度大。

PaddleOCR 3.5 将 OCR 与文档解析管线封装在 PaddleOCR 类内部,开发者只需在代码中切换后端即可完成:

from paddleocr import PaddleOCR
ocr = PaddleOCR(
    device="gpu:0",
    engine="transformers",
    engine_config={"dtype": "float32"}
)
results = ocr.predict("your_image.png")

这意味着:

  • 统一模型管理:所有模型均可通过 Hugging Face Hub 下载、版本控制、审计。
  • 开发体验一致:团队已在 Transformers 上构建的实验、部署脚本可直接复用,无需额外适配 Paddle 静态图。
  • 更易扩展:后续可利用 Transformers 插件(如 LoRA、DeepSpeed)对 OCR 模型进行轻量微调或加速。

快速上手

  1. 环境准备(CUDA 12.6 为例):
python -m pip install torch torchvision torchaudio 
    --index-url https://download.pytorch.org/whl/cu126
python -m pip install "paddleocr==3.5.0" "paddlex==3.5.2" "transformers>=5.4.0"
  1. 命令行调用
paddleocr ocr -i https://example.com/img.png 
    --device gpu:0 
    --engine transformers
  1. Python API:如上代码示例所示,可通过 engine_config 调整为 bfloat16sdpa 等高效配置。

典型使用场景

  • 企业文档检索:将 PDF、扫描件转为结构化文本后,直接喂入 LLM,实现精准问答。
  • 多模态 RAG:结合 Vision‑LLM,利用 OCR 提取图表文字,实现图文混合检索。
  • 智能客服:在用户上传证件或票据时,实时解析关键信息并触发业务流程。

生态与社区

PaddleOCR 3.5 已在 Hugging Face Spaces 上提供演示:https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo。

项目源码、文档及模型均托管于 Hugging Face 与 GitHub,社区贡献者可通过 Pull Request 直接参与后端适配工作。官方特别感谢 Anton Vlasjuk、Raushan Turganbay 与 Yoni Gozlan 对代码审查和文档完善的贡献。

结语:此轮发布的核心价值在于“桥接”。它让 PaddleOCR 的强大 OCR 能力与 Transformers 生态的灵活部署相结合,为构建端到端 Document AI 流程提供了更低的技术门槛,也为后续的模型微调与加速奠定了基础。开发者可根据业务需求在性能与易用性之间自由切换后端,真正实现“一站式”文档智能化。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。