Photoroom发布全新文本生成图像训练方案：对齐、稀疏与数据技巧显著提升效率

背景概述

Photoroom 近期推出的 PRX 系列文本生成图像模型（1.2B 参数）已在第一篇文章中公开了模型架构与基准。第二篇聚焦 训练层面的系统化改进，通过统一基线（纯 Flow Matching）与多组对照实验，评估每项技巧对 FID、CMMD、DINO‑MMD 以及每秒样本数的影响，旨在为社区提供可复现的高效训练配方。

关键实验与结果

Representation Alignment (REPA / iREPA)
- 使用 DINO‑v3 作为教师可将 FID 从 18.2 降至 14.6，CMMD、DINO‑MMD 同步下降，吞吐略降 8%。
- iREPA 的空间归一化与 3×3 卷积投射在 DINO‑v2 上提升收敛平滑度，但在 DINO‑v3 上出现回退，因交叉影响较大，未纳入默认配方。
Token‑Latent 对齐 (REPA‑E‑VAE / Flux2‑AE)
- 将 REPA‑E 结合的 VAE 与 Flux2‑AE 替换后，FID 直接跳至约 12.1，且 吞吐仅下降 0.5×（3.39 → 3.95），展示了对齐潜在空间的强大效益。
训练目标创新
- 对比流匹配（Contrastive‑FM）在 CMMD 与 DINO‑MMD 上有小幅提升，但 FID 略升，成本几乎不变，适合作为低成本正则化。
- JiT（直接预测干净图像）在 256×256 潜空间实验中提升有限，但在 1024×1024 像素直接训练时实现 1.33 样本/秒 的可接受速度，且 FID 仅 17.4，证明其在高分辨率场景的可行性。
Token Routing 与 Sparsification
- 在 256×256 条件下 TREAD 与 SPRINT 仅提升 7‑9% 吞吐，却导致 FID 超过 21，效果不佳。
- 在 1024×1024 大分辨率时，两者逆转：TREAD 将 FID 从 17.4 降至 14.1，吞吐提升至 1.64；SPRINT 虽稍逊质量（FID 16.9），但吞吐最高达 1.89。
数据策略
- 长描述（多属性）显著加速收敛；短句导致 FID 超过 36，几乎失效。
- 合成数据在早期帮助模型快速捕获全局结构；后期转向真实图像可提升纹理真实感。
实用细节
- MuON 优化器在相同设置下把 FID 降至 15.55，较 AdamW 提升约 2.7。
- 参数存储误用 BF16 会导致 FID 增至 21.9，提醒在混合精度训练中保持权重 FP32。

实践建议与展望

分阶段对齐：前 150‑200k 步使用 REPA 加速收敛，随后关闭以避免后期质量瓶颈。
高分辨率训练首选 JiT + TREAD：在 1024² 像素下实现质量与速度的最佳平衡。
数据混合策略：早期使用大规模合成图像 + 长描述，后期逐步混入真实图像与短句 fine‑tune，以兼顾结构与纹理。
优化器与数值稳定性：推荐 MuON + FP32 权重存储，避免 BF16 参数导致的隐蔽退化。
开源计划：Photoroom 将在数周内发布完整训练代码及 24 小时 Speedrun 结果，供社区复现与进一步迭代。

“细节决定成败”，在文本生成图像的大模型训练中，算法、数据与数值实现同等重要，系统化的 ablation 让我们看清了每一环的真实贡献。

结语

本系列第二篇为文本生成图像模型的 训练效率 提供了可操作的全链路指南，既有理论解释也有实测数据，帮助研发团队在算力受限的情况下快速逼近 SOTA 质量。后续的完整配方与公开仓库将进一步推动开源社区的协同创新。

Photoroom发布全新文本生成图像训练方案：对齐、稀疏与数据技巧显著提升效率

背景概述

关键实验与结果

实践建议与展望

结语

标签分类