NVIDIA发布Nemotron ColEmbed V2系列，凭借ViDoRe V3领跑多模态检索

背景与挑战

随着企业内部文档日益视觉化，传统仅基于文本的检索已难以满足对表格、图表、示意图等多模态信息的精准定位需求。多模态检索需要模型能够同时理解文字与图像，并在统一向量空间中完成高效匹配。

Nemotron ColEmbed V2 系列概览

模型规模：3B、4B、8B 三个版本，参数分别为约4.4 B、4.8 B、8.8 B。
嵌入维度：3B 版 3072 维，4B 版 2560 维，8B 版 4096 维。
发布平台：全部模型已在 Hugging Face 开源，配套微服务容器可从 NVIDIA NGC 获取。

技术创新

多向交互（Late‑Interaction）机制
- 将 ColBERT 的 MaxSim 思路拓展至视觉‑语言场景，查询每个 token 与文档所有 token 计算相似度，取最大值后求和得到最终得分。
- 该机制在保持检索准确性的同时，能够捕获细粒度的跨模态语义对应。
双向自注意力
- 与传统单向因果自注意力不同，模型采用双向自注意力，使得每个 token 能同时利用前后文信息，提升跨模态表示的丰富度。
模型合并与合成数据
- 通过后训练模型合并，将多个微调检查点的优势融合，实现近似集成效果而不增加推理时延。
- 大规模多语言合成数据显著提升了模型在跨语言文档上的对齐能力。
训练流程
- 采用双编码器架构，使用对比学习最大化正样本相似度、最小化硬负样本相似度。
- 3B 版先在 1250 万文本‑问答对上微调，再加入文本‑图像对进行二次微调；4B/8B 版直接在文本‑图像对上训练。

评测成绩（ViDoRe V3）

模型	参数	嵌入维度	NDCG@10	排名
nemotron-colembed-vl-8b-v2	8.8B	4096	63.42	1
nemotron-colembed-vl-4b-v2	4.8B	2560	61.54	3
llama‑nemotron‑colembed‑vl‑3b‑v2	4.4B	3072	59.79	6

上述结果表明，Nemotron ColEmbed V2 在公开与私有任务上均实现了业界最高的检索准确率，特别是 8B 版在企业级视觉文档检索场景中具备显著优势。

适用场景与部署建议

企业文档搜索：可用于检索包含图表、流程图、发票等视觉元素的内部手册和报告。
多模态 RAG 系统：结合大型语言模型，实现基于文本查询的图文混合检索，为生成式问答提供高质量上下文。
媒体内容管理：在新闻、广告素材库中快速定位包含特定视觉信息的素材。

部署时建议将文档的 token 嵌入预先离线存储于向量数据库（如 Milvus、FAISS），查询阶段仅计算查询 token 的嵌入并执行 MaxSim 匹配，可在保证高精度的同时控制响应时延。

获取方式

模型已在 Hugging Face 正式上线，下载链接分别为 nemotron-colembed-vl-8b-v2、nemotron-colembed-vl-4b-v2 与 llama-nemotron-colembed-vl-3b-v2。同时，NVIDIA 提供基于 NGC 的容器镜像和 Enterprise RAG Blueprint，帮助用户快速在云端或本地环境中部署。

“Nemotron ColEmbed V2 把多模态检索的精度提升到了新的高度，为企业级知识管理打开了可能。” — NVIDIA NeMo 团队

NVIDIA发布Nemotron ColEmbed V2系列，凭借ViDoRe V3领跑多模态检索