DeepMind推出Vision Banana统一视觉模型，零样本超越SAM 3与Depth Anything V3

研究背景

长期以来，计算机视觉社区在生成模型和判别模型之间保持两条平行路线，前者负责图像合成，后者负责图像理解。DeepMind 的新论文《Image Generators are Generalist Vision Learners》（arXiv:2604.20329）提出，生成式预训练同语言模型的预训练一样，能够为视觉任务提供通用表征。团队在 2026 年 4 月 22 日正式发布了 Vision Banana，这是一款在 Nano Banana Pro 基础上进行轻量指令微调的统一模型。

方法概述

生成式预训练即通用视觉学习：Nano Banana Pro 采用大规模文本‑图像对进行生成式训练，模型在学习真实感图像的过程中自然捕获几何、语义和深度信息。
指令微调把所有视觉任务映射为 RGB 图像：通过在原始训练混合中加入极少量的视觉任务数据，并在提示中规定颜色映射规则，模型仅需改变提示即可输出语义分割、实例分割、度量深度或表面法线的可解码 RGB 图。
完全无任务专用头：所有任务共享同一套权重，推理时只需替换提示词，无需额外模块或相机参数。

零样本实验结果

语义分割（Cityscapes val）：mIoU 0.699，超越 SAM 3 的 0.652。
实例分割（SA‑Co/Gold）：pmF1 0.540，接近 DINO‑X（0.552），显著领先 Gemini 2.5（0.461）。
度量深度（六大基准）：δ₁ 平均 0.882；在 Depth Anything V3 评测的四个数据集上达到 0.929，优于其 0.918。
表面法线（四大基准）：平均角度误差 18.93°，低于 Lotus‑2 的 19.64°，室内数据集上更是 15.55° 的最佳成绩。
生成能力保持：在 GenAI‑Bench 文本‑图像基准中，Vision Banana 对 Nano Banana Pro 的胜率为 53.5%，在 ImgEdit 中为 47.8%，说明指令微调未削弱原有生成性能。

关键意义与未来方向

Vision Banana 的成功证明，图像生成预训练能够自动学习通用视觉表征，进而在无需专用架构或大量标注数据的情况下完成多种感知任务。这为“基础视觉模型”（Foundational Vision Model）的概念提供了实验证据，未来可能出现类似 LLM 的统一接口：通过不同提示实现图像理解、编辑、测量等多模态交互。DeepMind 表示，后续将探索更大规模的生成式预训练以及跨模态指令微调，以进一步提升模型在实际工业场景中的鲁棒性和可解释性。

DeepMind推出Vision Banana统一视觉模型，零样本超越SAM 3与Depth Anything V3

研究背景

方法概述

零样本实验结果

关键意义与未来方向

标签分类

DeepMind推出Vision Banana统一视觉模型，零样本超越SAM 3与Depth Anything V3