微软研究院推出CORPGEN框架，提升多任务自治AI代理效率

背景与挑战

随着生成式AI在企业内部的落地，传统的单任务基准已无法衡量真实工作负荷。研究团队提出“多视野任务环境”（Multi‑Horizon Task Environments，MHTE），即在单一持久上下文中同时管理数十甚至上百个相互依赖的任务。实验表明，现有计算机使用代理（CUA）在负载从 25% 提升至 100% 时，完成率从 16.7% 降至 8.7%，主要受四大失效模式制约：上下文饱和、记忆干扰、依赖图复杂以及重新排序开销。

CORPGEN 架构核心

CORPGEN 通过四个机制实现 Multi‑Objective Multi‑Horizon Agent（MOMA）：

层级规划：将目标分解为月度战略、日度战术和每轮操作三层，确保长期一致性。
子代理隔离：将 GUI 自动化、检索等复杂子任务封装为独立子代理，各自维护独立上下文，防止记忆交叉污染。
分层记忆：工作记忆（每轮重置）、结构化长期记忆（计划、摘要）和语义记忆（Mem0 向量检索）三层协同。
自适应摘要：当上下文超过 4 000 token 时，关键内容保留原文，常规推理压缩为结构化摘要，显著控制 token 消耗。

实验与效果

在 UFO2、OpenAI CUA 与层级代理三套后端上对标 MHTE 场景，CORPGEN 将完成率提升至 15.2%，相当于基线的 3.5 倍。消融实验显示，经验学习模块贡献最大——系统会将成功轨迹存入 FAISS 索引，在后续执行时检索相似示例作为 few‑shot 引导。

行业意义

该工作揭示了当前评测体系过度依赖“截图‑日志”而忽视真实产出的问题，提示评测应转向“artifact‑based”方式。CORPGEN 的层级规划与记忆隔离为企业级自主代理提供了可扩展的技术路径，预计将在企业流程自动化、数字员工以及复杂决策支持等场景快速落地。

微软研究院推出CORPGEN框架，提升多任务自治AI代理效率

背景与挑战

CORPGEN 架构核心

实验与效果

行业意义

标签分类