NVIDIA发布Nemotron ColEmbed V2系列,凭借ViDoRe V3领跑多模态检索

19 阅读4分钟前沿
NVIDIA发布Nemotron ColEmbed V2系列,凭借ViDoRe V3领跑多模态检索

背景与挑战

随着企业内部文档日益视觉化,传统仅基于文本的检索已难以满足对表格、图表、示意图等多模态信息的精准定位需求。多模态检索需要模型能够同时理解文字与图像,并在统一向量空间中完成高效匹配。

Nemotron ColEmbed V2 系列概览

  • 模型规模:3B、4B、8B 三个版本,参数分别为约4.4 B、4.8 B、8.8 B。
  • 嵌入维度:3B 版 3072 维,4B 版 2560 维,8B 版 4096 维。
  • 发布平台:全部模型已在 Hugging Face 开源,配套微服务容器可从 NVIDIA NGC 获取。

技术创新

  1. 多向交互(Late‑Interaction)机制

    • 将 ColBERT 的 MaxSim 思路拓展至视觉‑语言场景,查询每个 token 与文档所有 token 计算相似度,取最大值后求和得到最终得分。
    • 该机制在保持检索准确性的同时,能够捕获细粒度的跨模态语义对应。
  2. 双向自注意力

    • 与传统单向因果自注意力不同,模型采用双向自注意力,使得每个 token 能同时利用前后文信息,提升跨模态表示的丰富度。
  3. 模型合并与合成数据

    • 通过后训练模型合并,将多个微调检查点的优势融合,实现近似集成效果而不增加推理时延。
    • 大规模多语言合成数据显著提升了模型在跨语言文档上的对齐能力。
  4. 训练流程

    • 采用双编码器架构,使用对比学习最大化正样本相似度、最小化硬负样本相似度。
    • 3B 版先在 1250 万文本‑问答对上微调,再加入文本‑图像对进行二次微调;4B/8B 版直接在文本‑图像对上训练。

评测成绩(ViDoRe V3)

模型参数嵌入维度NDCG@10排名
nemotron-colembed-vl-8b-v28.8B409663.421
nemotron-colembed-vl-4b-v24.8B256061.543
llama‑nemotron‑colembed‑vl‑3b‑v24.4B307259.796

上述结果表明,Nemotron ColEmbed V2 在公开与私有任务上均实现了业界最高的检索准确率,特别是 8B 版在企业级视觉文档检索场景中具备显著优势。

适用场景与部署建议

  • 企业文档搜索:可用于检索包含图表、流程图、发票等视觉元素的内部手册和报告。
  • 多模态 RAG 系统:结合大型语言模型,实现基于文本查询的图文混合检索,为生成式问答提供高质量上下文。
  • 媒体内容管理:在新闻、广告素材库中快速定位包含特定视觉信息的素材。

部署时建议将文档的 token 嵌入预先离线存储于向量数据库(如 Milvus、FAISS),查询阶段仅计算查询 token 的嵌入并执行 MaxSim 匹配,可在保证高精度的同时控制响应时延。

获取方式

模型已在 Hugging Face 正式上线,下载链接分别为 nemotron-colembed-vl-8b-v2nemotron-colembed-vl-4b-v2llama-nemotron-colembed-vl-3b-v2。同时,NVIDIA 提供基于 NGC 的容器镜像和 Enterprise RAG Blueprint,帮助用户快速在云端或本地环境中部署。

“Nemotron ColEmbed V2 把多模态检索的精度提升到了新的高度,为企业级知识管理打开了可能。” — NVIDIA NeMo 团队

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。