FireRedTeam发布FireRed-OCR-2B 解决表格与LaTeX结构幻觉实现端到端文档解析新标杆
•6 阅读•3分钟•前沿
GRPOFireRedTeamFireRed-OCR-2BOmniDocBench文档解析
•6 阅读•3分钟•前沿
背景与挑战
传统文档数字化流程通常分为布局检测、文字识别、结构重建三阶段。对大型视觉语言模型(LVLM)而言,这种多步骤易产生 结构幻觉——表格行列错乱、公式不完整、Markdown 标记未闭合等问题,导致下游 RAG 或知识库构建成本激增。
核心技术创新
- 架构基础:FireRed‑OCR‑2B 基于 Qwen3‑VL‑2B‑Instruct,采用统一的 Transformer 编码器‑解码器,实现从图像直接输出结构化 Markdown。
- Progressive Training Pipeline:三阶段训练——
- 多任务预对齐:布局检测、区域识别、布局‑to‑Markdown 三任务同步学习,构建空间 grounding。
- 专属 SFT:在高质量 Markdown 数据集上微调,确保层级表达一致。
- Format‑Constrained GRPO:引入 Group Relative Policy Optimization,利用强化学习奖励模型在 公式语法、表格完整性、层级闭合 等结构维度上的表现。
- GRPO 的独特价值:无需额外的 critic 模型,即可在训练过程中自动纠正结构错误,显著提升 LaTeX 公式的数学合法性和表格的列对齐度。
性能评测
在公开基准 OmniDocBench v1.5 上,FireRed‑OCR‑2B 获得 92.94% 的整体得分,领先同类单模型方案:
- DeepSeek‑OCR 2:91.09%
- Gemini‑3.0 Pro:90.33%
- Qwen3‑VL‑2.35B:89.15%
相较于传统 pipeline(检测+OCR)方案,虽然后者在极端布局上略有优势,但单模型端到端方案在推理时延、部署复杂度和资源占用上拥有显著优势,特别适配 RAG 场景的实时文档检索与生成。
业界意义
- 降低系统复杂度:开发者无需自行组合检测、裁剪、识别等子模型,一键部署即可获得结构化输出。
- 提升长尾布局鲁棒性:借助 “Geometry + Semantics” 数据工厂,模型在非标准法律表格、学术论文多列布局以及手写批注等极端场景仍保持高准确率。
- 推动结构化生成研究:GRPO 为后续的文档‑到‑代码、表格‑到‑SQL 等结构化生成任务提供了可复用的强化学习范式。
"FireRed‑OCR‑2B 将文档 OCR 的焦点从字符准确率转向结构完整性,这是一种全新的思考路径。"——FireRedTeam 技术负责人
结论
FireRed‑OCR‑2B 通过创新的 GRGRPO 训练方式和几何‑语义双驱动的数据构建,成功突破了大型视觉语言模型在文档解析中的结构幻觉瓶颈。其在 OmniDocBench 的领先表现以及端到端部署优势,使其成为 2026 年文档智能化的关键技术选项,值得企业级 RAG 平台和科研团队重点关注。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。