Google发布Gemini 3.5 Flash，编码和代理任务速度提升四倍成本减半

重大发布

Google I/O 2026上，Google宣布推出首款Gemini 3.5系列模型——Gemini 3.5 Flash。Google将其定位为“前沿智能+行动”组合，旨在为智能代理和长时序任务提供更快、更廉价的算力支撑。Flash 版延续了Gemini 系列的多模态能力，支持文本、图像、音频和视频输入，最大上下文长度高达1,048,576个输入 token，输出上限为65,536 token。

性能基准

Terminal‑Bench 2.1（编码）: 76.2%（领先 Gemini 3.1 Pro）
GDPval‑AA（真实世界代理）: 1656 Elo
MCP Atlas（工具使用可靠性）: 83.6%
CharXiv Reasoning（多模态推理）: 84.2%

这些成绩表明 Gemini 3.5 Flash 在代码生成、工具调用以及跨模态推理方面均实现了显著提升，尤其在需要多步思考的任务上表现出更强的鲁棒性。

成本与算力

输入 token 费用：$1.50 / 百万 token
输出 token 费用：$9.00 / 百万 token
缓存输入费用：$0.15 / 百万 token

相较于上一代 Gemini 3.1 Pro，Flash 版在相同算力下的成本约下降 50%，且在输出 token 速度上提升 4 倍，满足高频交互和大规模推理的商业需求。

代理与长程任务

Gemini 3.5 Flash 默认开启 Dynamic Thinking，模型会根据问题难度自动分配更多算力。Google 同时发布 Managed Agents API：一次 API 调用即可启动完整的代理实例，具备持久化文件系统和状态跨调用保持，免去开发者自行管理容器的繁琐。

配套的 Antigravity 生态系统 进一步强化了代理开发体验：

Antigravity 2.0 桌面客户端，可视化编排并行子代理
Antigravity CLI 为终端开发者提供“一键生成代理”能力
Antigravity SDK 让用户在自选基础设施上部署自定义代理行为

这些工具把从概念到生产的周期压缩至数小时，特别适合需要长时序、多工具协作的企业场景。

企业落地

Google 已公布多家合作伙伴的实际使用案例：

Shopify：并行子代理用于全链路数据分析，提升商户增长预测精度。
Macquarie Bank：在客户 onboarding 流程中，模型可在 100+ 页文档上快速检索并给出合规建议。
Salesforce：将 Flash 集成至 Agentforce，实现跨部门任务自动化。
Ramp：结合 OCR 与历史模式推理，实现发票自动核对。
Xero：部署多周工作流的供应商信息收集，支持 1099 表单生成。
Databricks：实时监控数据管道异常，自动诊断并提供修复方案。

这些落地案例展示了 Flash 在 多模态理解 + 复杂工具调用 组合上的商业价值。

行业影响

Gemini 3.5 Flash 的发布对整个大模型生态产生三重冲击：

成本壁垒下降——企业可以在更低的预算下运行高质量代理，降低 AI 赋能的门槛。
开发效率提升——Managed Agents 与 Antigravity 套件实现“一键代理”，加速创新周期。
竞争格局重塑——在编码基准和长程任务上超越自家 Gemini 3.1 Pro，迫使其他云厂商加速推出类似的高效模型。

随着更多企业将 Gemini 3.5 Flash 纳入生产环境，Google 有望在企业级 AI 代理市场夺得更大份额，并进一步巩固其在多模态大模型领域的领先地位。

“从技术到产品化的完整闭环，是 Gemini 3.5 Flash 最大的竞争优势。”——Google 官方博客

本文基于 Google 官方博客及公开发布的技术文档整理。