字节跳动发布Lance，首个统一图像视频理解与生成的3B模型

背景与意义

随着生成式AI快速发展，图像与视频任务往往采用不同的模型体系，导致研发成本和推理资源大幅提升。字节跳动智能创作实验室在最新论文 (arXiv:2605.18678) 中提出 Lance，通过单一模型实现图像、视频的理解、生成以及编辑，标志着多模态统一模型进入实用化阶段。

规模：3B 激活参数，基于 Qwen2.5‑VL 3B 初始化。
任务覆盖：
- 理解：图像/视频字幕、视觉问答、OCR、视觉定位与推理。
- 生成：文本到图像、文本到视频、图像到视频、主题驱动生成。
- 编辑：图像编辑、视频编辑，支持跨模态多轮一致性。
架构核心：双流 Mixture‑of‑Experts（理解专家 LLMUND、生成专家 LLMGEN）共享统一的交叉模态序列。

统一上下文建模：所有输入（文本、图像、视频）被转化为同一交错序列；文本 Token 来自 Qwen2.5‑VL 嵌入层，语义视觉 Token 来自 ViT 编码器，生成视觉 Token 来自 3D Causal VAE。
Modality‑Aware Rotary Positional Encoding (MaPE)：为不同模态的 Token 添加固定时间偏移，防止位置冲突，实现跨任务对齐。实验表明，去除 MaPE 会导致 GenEval、GEdit‑Bench、VBench 等指标整体下降 0.3~1.0 分。
双流专家解耦：理解专家负责离散语义 Token，生成专家负责连续潜在 Token，二者在同一上下文中并行计算，既共享信息又避免参数竞争。

阶段	数据规模	关键任务	备注
PT（预训练）	1B 图文 + 140M 视频文对	基础跨模态对齐与生成	冻结 VAE 与 ViT，仅训练主干
CT（持续训练）	300B Token	编辑、主题驱动生成、跨模态理解	逐步提升难度比例
SFT（指令微调）	72B Token	指令遵循、编辑精度、身份一致性
RL（强化学习）	—	使用 PaddleOCR 作为奖励模型提升文本渲染与对齐	资源上限 128 GPU

这些结果表明，Lance 在保持 3B 参数规模的同时，兼顾了理解、生成与编辑三大能力，实现了 参数效率 与 功能完整性 的双重突破。

环境要求：CUDA 12.4+，GPU 显存 ≥ 40 GB，Python ≥ 3.10。
代码获取：git clone https://github.com/bytedance/Lance && cd Lance
依赖安装：conda create -n lance-env python=3.10 -y && conda activate lance-env && pip install -r requirements.txt
模型下载：使用 HuggingFace CLI 下载 bytedance-research/Lance 权重至 downloads/ 目录。
推理调用：通过 inference_lance.sh 指定任务（t2i、t2v、image_edit、video_edit 等）即可运行；亦可启动 lance_gradio_t2v_v2t.py 进入可视化界面。

完整的安装与运行步骤详见官方 README，社区已提供多套示例配置，便于快速上手。

Lance 的发布展示了 单模型统一多模态 的可行路径，为内容创作、广告生成、媒体后期等场景提供了低成本、高一致性的技术底座。与此同时，开源 Apache 2.0 许可证降低了企业与研究机构的准入门槛，预计将在国内外的生成式AI生态中掀起新一轮模型复用与创新浪潮。