PaddleOCR 3.5 引入 Transformers 后端，文档解析更贴合 Hugging Face 生态

2026/05/18 (周一)•27 阅读•5分钟•应用

Hugging FaceTransformersPaddlePaddlePP-OCRv5文档AI

2026/05/18 (周一)•27 阅读•5分钟•应用

PaddleOCR 3.5 引入 Transformers 后端，文档解析更贴合 Hugging Face 生态

关键更新

后端可选：通过 engine="transformers" 参数，PaddleOCR 支持将原有的 Paddle 静态图或动态图后端切换为 Transformers。
统一配置：engine_config 可传入 dtype、设备、注意力实现等底层选项，实现与 Hugging Face Hub 完全兼容的模型管理。
模型覆盖：PP‑OCRv5 系列 OCR 模型以及 PaddleOCR‑VL 1.5 文档解析模型均已适配 Transformers 后端。

“PaddleOCR 3.5 并非要取代原有后端，而是提供了更灵活的选择，让开发者可以在熟悉的 PyTorch/Transformers 生态中直接使用 OCR 能力。”—— PaddlePaddle 官方博客

为何重要

在 RAG、Document AI、智能客服等场景中，文档的前置处理往往是系统可靠性的瓶颈。传统流程需要手动串联 PaddleOCR、独立的模型服务以及自研的文本抽取代码，集成成本高、维护难度大。

PaddleOCR 3.5 将 OCR 与文档解析管线封装在 PaddleOCR 类内部，开发者只需在代码中切换后端即可完成：

from paddleocr import PaddleOCR
ocr = PaddleOCR(
    device="gpu:0",
    engine="transformers",
    engine_config={"dtype": "float32"}
)
results = ocr.predict("your_image.png")

这意味着：

统一模型管理：所有模型均可通过 Hugging Face Hub 下载、版本控制、审计。
开发体验一致：团队已在 Transformers 上构建的实验、部署脚本可直接复用，无需额外适配 Paddle 静态图。
更易扩展：后续可利用 Transformers 插件（如 LoRA、DeepSpeed）对 OCR 模型进行轻量微调或加速。

快速上手

环境准备（CUDA 12.6 为例）：

python -m pip install torch torchvision torchaudio 
    --index-url https://download.pytorch.org/whl/cu126
python -m pip install "paddleocr==3.5.0" "paddlex==3.5.2" "transformers>=5.4.0"

命令行调用：

paddleocr ocr -i https://example.com/img.png 
    --device gpu:0 
    --engine transformers

Python API：如上代码示例所示，可通过 engine_config 调整为 bfloat16、sdpa 等高效配置。

典型使用场景

企业文档检索：将 PDF、扫描件转为结构化文本后，直接喂入 LLM，实现精准问答。
多模态 RAG：结合 Vision‑LLM，利用 OCR 提取图表文字，实现图文混合检索。
智能客服：在用户上传证件或票据时，实时解析关键信息并触发业务流程。

生态与社区

PaddleOCR 3.5 已在 Hugging Face Spaces 上提供演示：https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo。

项目源码、文档及模型均托管于 Hugging Face 与 GitHub，社区贡献者可通过 Pull Request 直接参与后端适配工作。官方特别感谢 Anton Vlasjuk、Raushan Turganbay 与 Yoni Gozlan 对代码审查和文档完善的贡献。

结语：此轮发布的核心价值在于“桥接”。它让 PaddleOCR 的强大 OCR 能力与 Transformers 生态的灵活部署相结合，为构建端到端 Document AI 流程提供了更低的技术门槛，也为后续的模型微调与加速奠定了基础。开发者可根据业务需求在性能与易用性之间自由切换后端，真正实现“一站式”文档智能化。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方，仅供参考使用。点击此处查看消息源。