DeepSeek AI发布DeepSeek-OCR 2，因果视觉流编码提升布局感知文档理解

背景概览

DeepSeek AI最新开源的DeepSeek-OCR 2是一款面向复杂版面文档的光学字符识别与结构理解系统。相较于传统的从左上到右下的栅格顺序，DeepSeek-OCR 2通过因果视觉流编码，使模型更贴近人类的阅读顺序，从而在多列、混排、公式与表格密集的页面上表现更佳。

核心技术

DeepEncoder‑V2：基于 Qwen2‑0.5B 架构的视觉编码器，将视觉令牌视作前缀，随后追加等量的因果流令牌（causal flow tokens）。视觉令牌使用双向注意力，因果流令牌仅能看到前面的因果流令牌，实现从二维网格到一维阅读序列的映射。
视觉分词器：沿用原 DeepSeek-OCR 的 80M 参数 SAM‑base 主干，加两层卷积，将图像下采样 16 倍，得到 896 维嵌入。全局视图（1024×1024）产出 256 令牌，最多 6 张局部裁剪（768×768）各增 144 令牌，单页令牌数控制在 256‑1120 之间，低于原模型的 1156 预算。
解码器：DeepSeek‑3B‑A500M 为 3B 参数的 MoE 语言模型，实际激活约 500M 参数，负责在已排序的视觉令牌上进行文本生成。

训练流程

训练分为三阶段：

编码器预训练：使用小型解码器，目标为语言模型预训练，分辨率 768×768 与 1024×1024 多尺度采样，使用 AdamW，学习率 1e‑4→1e‑6，约 40k 步，耗时 160 张 A100 GPU。
查询增强联合训练：冻结分词器，编码器‑解码器共同训练，采用 4‑stage pipeline 并行，全局 batch size 为 1280，迭代 15k，学习率 5e‑5→1e‑6。
解码器微调：冻结全部编码器参数，仅微调解码器，学习率 1e‑6→5e‑8，迭代 20k，使训练吞吐率翻倍。

数据比例聚焦 OCR，OCR 数据占 80%，文本‑公式‑表格采样比为 3:1:1，确保模型在结构密集场景下拥有足够曝光。

基准表现

在 OmniDocBench‑v1.5（1355 页、9 类文档）上，DeepSeek‑OCR 2 获得整体得分 91.09，较原版 87.36 提升 3.73 分，且令牌上限更小。阅读顺序编辑距离从 0.085 降至 0.057，文本编辑距离从 0.073 降至 0.048，公式与表格的误差同样下降。元素级编辑距离为 0.100，优于原模型的 0.129 以及 Gemini‑3 Pro 的 0.115。

行业意义

DeepSeek‑OCR 2 的因果视觉流设计为文档理解提供了新的思路：将视觉编码与阅读顺序融合，使多列、混排文档的解析更符合人类认知。作为完全开源的项目，社区可以直接复用其视觉分词器与训练管线，进一步推动中文文档 OCR 与结构化处理的生态发展。

“从二维到一维的阅读流映射，是布局感知的关键突破。”——DeepSeek AI 研究团队

获取方式

项目代码、模型权重及完整论文已同步至 GitHub：https://github.com/deepseek-ai/DeepSeek-OCR-2，欢迎开发者下载实验。