Google将Gemini 3.5 Flash电脑使用功能内置，开启跨平台智能代理新纪元

背景概述

在过去一年里，Google 的 Gemini 系列模型持续强化工具调用与多模态理解能力。Gemini 2.5 已推出独立的电脑使用模型，可在受控环境下完成网页浏览、文件操作等任务。此次，Google 将该能力深度融合进最新的 Gemini 3.5 Flash 主模型，实现“一体化”调用，意味着开发者无需切换模型即可构建全链路智能代理。

关键特性

原生集成：电脑使用功能不再是外部插件，而是模型内部的子模块，调用延迟更低，兼容性更好。
跨平台感知：支持浏览器、移动端和桌面三大环境的页面抓取、表单填写、文件编辑等操作。
长时序任务：在连续的软件测试、企业报表生成等需要多步交互的场景中，模型能够保持上下文一致性，显著提升成功率。
安全防护：针对实时环境的提示注入风险，Google 引入了针对性对抗训练，并提供两套企业级安全开关：
1. 敏感操作需用户确认；
2. 检测到潜在注入时自动中止任务。
可审计输出：3.5 Flash 能自动审查自身文档的可访问性问题，示范了自检能力的落地。

业务落地与生态

Google 通过 Gemini API 与 Gemini Enterprise Agent Platform 向开发者开放该功能，企业可以快速在以下场景部署：

连续软件测试：自动打开 IDE、运行单元测试、收集日志并生成报告。
知识工作自动化：在 Google Workspace 中读取邮件、生成会议纪要、更新表格。
跨应用协同：在浏览器中抓取数据后，调用 Google Maps、Sheets 等服务完成业务流程。

安全与合规

为防止模型在真实环境中被误用，Google 采用了“防御深度”策略：

对抗训练：在大规模真实交互数据上加入针对提示注入的负样本。
企业安全开关：可配置的用户确认和自动中止机制。
沙箱执行：建议开发者结合容器化沙箱、人工审核与严格的访问控制，实现多层防护。

市场反馈

首批试用企业已报告：使用 Gemini 3.5 Flash 的电脑使用功能后，自动化脚本的成功率提升 30% 以上，且因安全开关的加入，误操作风险显著下降。Google 计划在今年底前推出更多行业模板，帮助金融、医疗和制造等领域加速智能化转型。

开始使用

开发者可前往 Gemini API 文档，获取示例代码并在 Browserbase 提供的演示环境中快速验证功能。完整的最佳实践与安全指南已同步发布于 Google Cloud 文档中心。

引用：Gemini 3.5 Flash 产品经理 Mateo Quiros 在发布会中表示，“将电脑使用能力内置于主模型，是我们实现通用智能代理的关键一步”。

Google将Gemini 3.5 Flash电脑使用功能内置，开启跨平台智能代理新纪元