Google发布Gemini 3.5 Flash,编码和代理任务速度提升四倍成本减半

重大发布
Google I/O 2026上,Google宣布推出首款Gemini 3.5系列模型——Gemini 3.5 Flash。Google将其定位为“前沿智能+行动”组合,旨在为智能代理和长时序任务提供更快、更廉价的算力支撑。Flash 版延续了Gemini 系列的多模态能力,支持文本、图像、音频和视频输入,最大上下文长度高达1,048,576个输入 token,输出上限为65,536 token。
性能基准
- Terminal‑Bench 2.1(编码): 76.2%(领先 Gemini 3.1 Pro)
- GDPval‑AA(真实世界代理): 1656 Elo
- MCP Atlas(工具使用可靠性): 83.6%
- CharXiv Reasoning(多模态推理): 84.2%
这些成绩表明 Gemini 3.5 Flash 在代码生成、工具调用以及跨模态推理方面均实现了显著提升,尤其在需要多步思考的任务上表现出更强的鲁棒性。
成本与算力
- 输入 token 费用:$1.50 / 百万 token
- 输出 token 费用:$9.00 / 百万 token
- 缓存输入费用:$0.15 / 百万 token
相较于上一代 Gemini 3.1 Pro,Flash 版在相同算力下的成本约下降 50%,且在输出 token 速度上提升 4 倍,满足高频交互和大规模推理的商业需求。
代理与长程任务
Gemini 3.5 Flash 默认开启 Dynamic Thinking,模型会根据问题难度自动分配更多算力。Google 同时发布 Managed Agents API:一次 API 调用即可启动完整的代理实例,具备持久化文件系统和状态跨调用保持,免去开发者自行管理容器的繁琐。
配套的 Antigravity 生态系统 进一步强化了代理开发体验:
- Antigravity 2.0 桌面客户端,可视化编排并行子代理
- Antigravity CLI 为终端开发者提供“一键生成代理”能力
- Antigravity SDK 让用户在自选基础设施上部署自定义代理行为
这些工具把从概念到生产的周期压缩至数小时,特别适合需要长时序、多工具协作的企业场景。
企业落地
Google 已公布多家合作伙伴的实际使用案例:
- Shopify:并行子代理用于全链路数据分析,提升商户增长预测精度。
- Macquarie Bank:在客户 onboarding 流程中,模型可在 100+ 页文档上快速检索并给出合规建议。
- Salesforce:将 Flash 集成至 Agentforce,实现跨部门任务自动化。
- Ramp:结合 OCR 与历史模式推理,实现发票自动核对。
- Xero:部署多周工作流的供应商信息收集,支持 1099 表单生成。
- Databricks:实时监控数据管道异常,自动诊断并提供修复方案。
这些落地案例展示了 Flash 在 多模态理解 + 复杂工具调用 组合上的商业价值。
行业影响
Gemini 3.5 Flash 的发布对整个大模型生态产生三重冲击:
- 成本壁垒下降——企业可以在更低的预算下运行高质量代理,降低 AI 赋能的门槛。
- 开发效率提升——Managed Agents 与 Antigravity 套件实现“一键代理”,加速创新周期。
- 竞争格局重塑——在编码基准和长程任务上超越自家 Gemini 3.1 Pro,迫使其他云厂商加速推出类似的高效模型。
随着更多企业将 Gemini 3.5 Flash 纳入生产环境,Google 有望在企业级 AI 代理市场夺得更大份额,并进一步巩固其在多模态大模型领域的领先地位。
“从技术到产品化的完整闭环,是 Gemini 3.5 Flash 最大的竞争优势。”——Google 官方博客
本文基于 Google 官方博客及公开发布的技术文档整理。