Meta AI发布Sapiens2，实现千像素人形视觉全任务新突破

背景与挑战

在人形计算机视觉领域，姿态捕捉、细粒度分割以及三维几何恢复长期受限于分辨率和特征表达的矛盾。传统动作捕捉系统难以捕捉手指细节，分割模型常出现牙齿与牙龈混淆等现象。Meta Reality Labs指出，要在任意真实图像中一次性理解人体的结构、表面细节以及光照属性，需要突破两大瓶颈：

双目标预训练：在Masked AutoEncoder (L_MAE) 与全局对比学习 (L_CL) 上加权融合，保持像素级细节的同时提升语义一致性。
学生‑教师框架：基于DINOv3，教师参数采用学生的指数滑动平均 (EMA)，确保全局特征不受强增强扰动。
层次化窗口注意力：前K层局部窗口自注意力捕获细纹，随后通过CLS‑引导的池化降采样进行全局注意力，兼容MAE掩码策略。
高效算子：RMSNorm 取代 LayerNorm、Grouped‑Query Attention (GQA) 与 QK‑Norm 提升大尺度训练稳定性，SwiGLU 前馈层进一步加速。

"Sapiens2是首个在千像素原始分辨率下全任务同步提升的专用人体模型，展示了大规模视觉Transformer的极限潜能。" – Meta AI 研究团队

从约40 亿网络图像中多阶段过滤，最终得到1 十亿高质量人形图像。过滤流程包括

随后采用感知哈希与深度特征最近邻去重，按姿态、视角、服装、光照等维度进行平衡抽样，确保数据多样性。预训练阶段未使用任何任务标签，仅依赖纯图像信息。

模型	参数量	原生分辨率	FLOPs (TFLOPs)	关键任务提升
Sapiens2‑0.4B	0.4 B	1K	1.2	+21.3 mIoU (分割)
Sapiens2‑5B	5 B	1K	15.7	+4 mAP (姿态)
Sapiens2‑1B‑4K	1 B	4K	12.4	+0.9 mIoU (分割)

任务细节

在统一冻结骨干、仅训练轻量解码头的密集探测评估中，Sapiens2‑5B 超越所有基线，包括参数更大的 DINOv3‑7B，展示了专用人体模型的强大迁移能力。

Sapiens2的发布为元宇宙、虚拟人物、AR/VR 交互以及高精度运动捕捉提供了统一的视觉基础设施。其千像素原生分辨率意味着在实际摄像头输入下即可获得细粒度几何信息，降低了后处理的成本和误差累积。与此同时，Meta 开源了模型权重与演示代码，为学术界和工业界的二次创新奠定了平台。

展望：随着更大规模数据与算力的持续投入，人形视觉模型有望进一步融合光照估计、材质推断以及跨模态语言描述，推动生成式人形内容的全链路自动化。