Photoroom 24小时完成文本生成图像模型训练展示高效扩散新配方

引言

在过去的几年里，训练竞争力的文本‑图像扩散模型往往需要上百万美元的算力投入。Photoroom 本次公开的 24 小时速跑实验，以 32 块 NVIDIA H200（约 1500 美元）为算力上限，完整复现了从数据准备到模型收敛的全流程，旨在证明当前技术堆栈已足以在单日预算内产出可用模型。

像素空间 X‑prediction：直接在像素而非潜在空间进行去噪预测，省去 VAE 编码/解码步骤，显著降低算力开销。
感知损失：在 LPIPS 与 DINOv2 特征上同时施加感知监督（权重分别为 0.1 与 0.01），提升细节保真度。
Token Routing（TREAD）：随机路由 50% token 跨越若干 Transformer 块，配合自指导机制，保持生成质量的同时削减计算。
表示对齐（REPA） + DINOv3：在第 8 层 Transformer 引入对齐损失（权重 0.5），仅对未路由 token 计算，确保特征一致性。
Muon 优化器：对矩阵参数使用 Muon（lr=1e-4, momentum=0.95），其余参数采用 Adam，进一步提升收敛速度。

项目	参数	说明
GPU	NVIDIA H200 ×32	2 $/hour/GPU，约 1500 美元预算
数据集	Flux‑generated (1.7M) / FLUX‑Reason‑6M (6M) / Midjourney‑v6‑LLAVA (1M)	使用 Gemini 2.5 Flash 重新标注，提升文本一致性
分辨率 schedule	512px 100k 步，batch 1024；1024px 20k 步，batch 512	先快速学习粗糙结构，再在高分辨率细化
EMA	decay=0.999, update_interval=10	稳定采样质量
训练时长	24 小时	完整实验在单日内结束

“我们已经能够在一天内训练出可用的文本‑图像模型，这在两三年前是不可想象的。”——Photoroom 团队技术负责人

Photoroom 将在现有配方上进一步扩大数据规模、提升 GPU 数目，并探索更高分辨率（2K）训练。同时，团队计划将全部代码、配置文件以及实验框架开源（GitHub），为社区提供可复现的快速 Diffusion 研究平台。

结语：本次速跑不仅展示了硬件成本的下降，也凸显了算法层面的积累——像素空间训练、路由机制、感知监督的组合已经足以在日常算力下实现高质量生成，预示着生成式 AI 将进入更高的普及门槛。