FireRedTeam发布FireRed-OCR-2B 解决表格与LaTeX结构幻觉实现端到端文档解析新标杆

背景与挑战

传统文档数字化流程通常分为布局检测、文字识别、结构重建三阶段。对大型视觉语言模型（LVLM）而言，这种多步骤易产生 结构幻觉——表格行列错乱、公式不完整、Markdown 标记未闭合等问题，导致下游 RAG 或知识库构建成本激增。

核心技术创新

架构基础：FireRed‑OCR‑2B 基于 Qwen3‑VL‑2B‑Instruct，采用统一的 Transformer 编码器‑解码器，实现从图像直接输出结构化 Markdown。
Progressive Training Pipeline：三阶段训练——
1. 多任务预对齐：布局检测、区域识别、布局‑to‑Markdown 三任务同步学习，构建空间 grounding。
2. 专属 SFT：在高质量 Markdown 数据集上微调，确保层级表达一致。
3. Format‑Constrained GRPO：引入 Group Relative Policy Optimization，利用强化学习奖励模型在 公式语法、表格完整性、层级闭合 等结构维度上的表现。
GRPO 的独特价值：无需额外的 critic 模型，即可在训练过程中自动纠正结构错误，显著提升 LaTeX 公式的数学合法性和表格的列对齐度。

性能评测

在公开基准 OmniDocBench v1.5 上，FireRed‑OCR‑2B 获得 92.94% 的整体得分，领先同类单模型方案：

DeepSeek‑OCR 2：91.09%
Gemini‑3.0 Pro：90.33%
Qwen3‑VL‑2.35B：89.15%

相较于传统 pipeline（检测+OCR）方案，虽然后者在极端布局上略有优势，但单模型端到端方案在推理时延、部署复杂度和资源占用上拥有显著优势，特别适配 RAG 场景的实时文档检索与生成。

业界意义

降低系统复杂度：开发者无需自行组合检测、裁剪、识别等子模型，一键部署即可获得结构化输出。
提升长尾布局鲁棒性：借助 “Geometry + Semantics” 数据工厂，模型在非标准法律表格、学术论文多列布局以及手写批注等极端场景仍保持高准确率。
推动结构化生成研究：GRPO 为后续的文档‑到‑代码、表格‑到‑SQL 等结构化生成任务提供了可复用的强化学习范式。

"FireRed‑OCR‑2B 将文档 OCR 的焦点从字符准确率转向结构完整性，这是一种全新的思考路径。"——FireRedTeam 技术负责人

结论

FireRed‑OCR‑2B 通过创新的 GRGRPO 训练方式和几何‑语义双驱动的数据构建，成功突破了大型视觉语言模型在文档解析中的结构幻觉瓶颈。其在 OmniDocBench 的领先表现以及端到端部署优势，使其成为 2026 年文档智能化的关键技术选项，值得企业级 RAG 平台和科研团队重点关注。

FireRedTeam发布FireRed-OCR-2B 解决表格与LaTeX结构幻觉实现端到端文档解析新标杆

背景与挑战

核心技术创新

性能评测

业界意义

结论

标签分类