百度发布Unlimited OCR实现长文档无缝解析 KV缓存保持平稳

背景

传统端到端OCR模型在输出长度增加时会导致KV缓存线性增长，内存占用和推理时延随之飙升，使得多页文档的批量解析几乎不可行。为了解决这一瓶颈，百度在DeepSeek OCR的基础上继续训练，推出了全新模型Unlimited OCR。

Reference Sliding Window Attention（R‑SWA）：每个生成 token 仅关注全部参考视觉 token 与最近的n个输出 token（默认 n=128），旧 token 被自动逐出缓存，缓存大小固定为 Lm + n，实现了恒定的内存占用和时延。
Mixture‑of‑Experts（MoE）架构：模型总参数量3B，但推理时仅激活约500M参数，保持高效算力需求。
DeepEncoder 设计：采用 SAM‑ViT 与全局注意力的 CLIP‑ViT 双流编码器，对 1024×1024 PDF 页面进行 256 视觉 token 的压缩，实现 16 倍 token 压缩率。
两种分辨率模式：Base 模式固定 1024×1024 适用于多页批处理，Gundam 模式支持单页动态分辨率，提升细粒度识别效果。

模型	OmniDocBench v1.5	OmniDocBench v1.6	TPS（Base 模式）
DeepSeek OCR	87.01	90.45	4,951
Unlimited OCR	93.23 (+6.22)	93.92	5,580 (+12.7%)

在文本、公式、表格以及阅读顺序四大子任务上均实现全线提升，编辑距离保持在 0.11 以下，长文档（40+页）解析误差低于 0.11，展示了模型的稳健性。

虽然 R‑SWA 将缓存保持在常数，但预填阶段仍受 32K 上下文限制；多页运行仅支持 Base 模式，极小文本可能出现漏检。团队计划将 R‑SWA 拓展至语音识别（ASR）和机器翻译等跨模态任务，进一步验证其通用性。

Unlimited OCR 的发布标志着中文 OCR 技术在长文档解析效率上的一次质的飞跃。凭借常数 KV 缓存、低激活参数量以及开源生态，预计将在学术研究与产业落地之间搭建更紧密的桥梁。