AI代理实现预算感知：在令牌、时延与工具调用约束下精准规划

背景与动机

在实际部署 AI 代理时，往往面临令牌费用、响应时延以及外部工具调用次数的硬性限制。传统的“始终调用 LLM”策略会导致资源浪费，甚至超出预算。为此，本文提出一种 预算感知的规划代理，通过显式建模成本并在搜索阶段进行约束过滤，实现资源与质量的最佳平衡。

预算抽象层

@dataclass
class Budget:
    max_tokens: int
    max_latency_ms: int
    max_tool_calls: int

@dataclass
class Spend:
    tokens: int = 0
    latency_ms: int = 0
    tool_calls: int = 0
    def within(self, b: Budget) -> bool:
        return (self.tokens <= b.max_tokens and
                self.latency_ms <= b.max_latency_ms and
                self.tool_calls <= b.max_tool_calls)

Budget 定义了三类资源的上限，Spend 记录实际消耗，并提供 within 方法用于实时校验。将成本视为一等公民，使后续的搜索过程能够直接剔除不可行的方案。

步骤选项设计

每个可执行步骤被抽象为 StepOption，包括名称、描述、预估消耗(est_spend) 与预估价值(est_value)。步骤分为两类：

本地执行（无需调用 LLM，消耗低）
LLM 执行（生成高质量文本，消耗高）

系统会根据任务提示，利用小模型（gpt-5）自动生成若干可选的额外检查步骤，进一步丰富行动空间。

预算约束下的搜索算法

采用 束搜索 (beam search)，在每一步扩展所有可行的 StepOption，并依据以下公式计算新方案的价值：

new_value = current_value + opt.est_value - redundancy_cost

redundancy_cost 用于惩罚功能重复的步骤，提升计划的多样性。搜索过程持续至达到最大步骤数或无可扩展方案为止，最终返回价值最高且满足预算的 PlanCandidate。

执行与实际消耗对比

在示例任务“为物流仪表盘撰写一页项目提案”中，设定预算 max_tokens=2200、max_latency_ms=3500、max_tool_calls=2。最佳计划包括本地与 LLM 步骤的混合使用，实际消耗约为 1800 令牌、3100 ms 时延和 2 次工具调用，成功在预算内完成高质量提案。

意义与展望

该方法展示了 成本感知的决策循环：从预估到执行再到实际反馈，形成闭环优化。未来可将预算模型细化为金钱、碳排放等多维度指标，并结合强化学习实现自适应预算调度，使 AI 代理在真实生产环境中更具可控性与可扩展性。