GEPA实现反思式提示优化显著提升小模型算术解题能力
•1 阅读•3分钟•前沿
GPT-4o-miniPrompt OptimizationGEPAGPT-4.1多步骤推理
•1 阅读•3分钟•前沿
背景与挑战
多步算术文字题对语言模型的推理链条、数值精度以及输出格式都有严格要求。传统的手工提示往往难以兼顾完整的步骤展示和统一的答案标记,导致模型容易出现格式错误或计算失误。
GEPA 框架概述
GEPA(Reflective Prompt Evolution)是一套基于反思模型的提示迭代系统,核心思路是:
- 任务模型(如
openai/gpt-4o-mini)负责实际求解; - 反思模型(如
openai/gpt-4.1)对任务模型的输出进行结构化评估,并生成可操作的反馈; - 评估器解析模型答案,判断是否满足“#### 正确答案”格式,给出分数与错误原因。
通过上述三方协同,GEPA 能在有限的 metric 调用预算内自动进化提示的指令和格式规则。
数据集与评估方法
作者自行构造了一个确定性的算术基准,包含四类常见情境:折扣、行程、钱包和链式运算。每类随机生成 18 条样例,程序化计算金标准答案,确保评估的客观性。
trainset = all_problems[:12]
valset = all_problems[12:]
评估器核心逻辑:
- 若模型输出严格以
#### <答案>结束且数值正确,得 1.0 分; - 若数值正确但格式不符,得 0.5 分;
- 其余情况记 0 分,并返回具体反馈(如计算错误、格式缺失等)。
优化过程与结果
- 基线提示:
"Solve the math problem. Give the answer."在训练集和验证集上分别得到约 0.33 的平均分,格式错误占比高。 - GEPA 迭代:在
MAX_METRIC_CALLS=100限制下,反思模型根据每轮反馈生成新提示,逐步加入步骤分解、结果校验和严格的终止行要求。 - 最佳提示(示例):
- 指令:
"Solve the problem step‑by‑step, verify each intermediate result, and end with a line exactly '#### <answer>'." - 格式规则:
"Each step must be on a separate line; the final line must be '#### <answer>'."
- 指令:
- 验证表现:在 held‑out 验证集上,优化后提示的平均得分提升至约 0.78,完整正确且格式合规的比例从 10% 提升至 65%。
结论与展望
GEPA 展示了通过结构化反馈实现提示自动化进化的可行性,尤其在资源受限的“小模型”场景下能够显著提升解题可靠性。未来可将该框架扩展至更复杂的多模态任务、长文本推理以及跨语言场景,以实现更广泛的“提示即代码”范式。
作者提示:在实际项目中,建议先构建确定性基准、明确评分标准,再使用 GEPA 进行迭代,以避免过拟合训练集而导致的泛化失效。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。