百度发布Unlimited OCR实现长文档无缝解析 KV缓存保持平稳

0 阅读3分钟开源
百度发布Unlimited OCR实现长文档无缝解析 KV缓存保持平稳

背景

传统端到端OCR模型在输出长度增加时会导致KV缓存线性增长,内存占用和推理时延随之飙升,使得多页文档的批量解析几乎不可行。为了解决这一瓶颈,百度在DeepSeek OCR的基础上继续训练,推出了全新模型Unlimited OCR。

技术创新

  • Reference Sliding Window Attention(R‑SWA):每个生成 token 仅关注全部参考视觉 token 与最近的n个输出 token(默认 n=128),旧 token 被自动逐出缓存,缓存大小固定为 Lm + n,实现了恒定的内存占用和时延。
  • Mixture‑of‑Experts(MoE)架构:模型总参数量3B,但推理时仅激活约500M参数,保持高效算力需求。
  • DeepEncoder 设计:采用 SAM‑ViT 与全局注意力的 CLIP‑ViT 双流编码器,对 1024×1024 PDF 页面进行 256 视觉 token 的压缩,实现 16 倍 token 压缩率。
  • 两种分辨率模式:Base 模式固定 1024×1024 适用于多页批处理,Gundam 模式支持单页动态分辨率,提升细粒度识别效果。

性能评测

模型OmniDocBench v1.5OmniDocBench v1.6TPS(Base 模式)
DeepSeek OCR87.0190.454,951
Unlimited OCR93.23 (+6.22)93.925,580 (+12.7%)

在文本、公式、表格以及阅读顺序四大子任务上均实现全线提升,编辑距离保持在 0.11 以下,长文档(40+页)解析误差低于 0.11,展示了模型的稳健性。

开源与应用

  • MIT 许可证:模型权重、代码及推理脚本全部开源,社区可直接 from_pretrained("baidu/Unlimited-OCR") 使用。
  • 推理接口:提供原生 Transformers 接口以及基于 SGLang 的 OpenAI‑compatible API,支持高并发批量解析。
  • 适用场景:整本书籍一次性转录、企业文档管线化提取、海量 PDF 批处理等,对 KV 缓存敏感的长序列任务尤为适合。

局限与展望

虽然 R‑SWA 将缓存保持在常数,但预填阶段仍受 32K 上下文限制;多页运行仅支持 Base 模式,极小文本可能出现漏检。团队计划将 R‑SWA 拓展至语音识别(ASR)和机器翻译等跨模态任务,进一步验证其通用性。

结语

Unlimited OCR 的发布标志着中文 OCR 技术在长文档解析效率上的一次质的飞跃。凭借常数 KV 缓存、低激活参数量以及开源生态,预计将在学术研究与产业落地之间搭建更紧密的桥梁。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。