Google将Gemini 3.5 Flash电脑使用功能内置,开启跨平台智能代理新纪元
•1 阅读•3分钟•前沿
GoogleGeminiAgentGemini 3.5 Flash
•1 阅读•3分钟•前沿

背景概述
在过去一年里,Google 的 Gemini 系列模型持续强化工具调用与多模态理解能力。Gemini 2.5 已推出独立的电脑使用模型,可在受控环境下完成网页浏览、文件操作等任务。此次,Google 将该能力深度融合进最新的 Gemini 3.5 Flash 主模型,实现“一体化”调用,意味着开发者无需切换模型即可构建全链路智能代理。
关键特性
- 原生集成:电脑使用功能不再是外部插件,而是模型内部的子模块,调用延迟更低,兼容性更好。
- 跨平台感知:支持浏览器、移动端和桌面三大环境的页面抓取、表单填写、文件编辑等操作。
- 长时序任务:在连续的软件测试、企业报表生成等需要多步交互的场景中,模型能够保持上下文一致性,显著提升成功率。
- 安全防护:针对实时环境的提示注入风险,Google 引入了针对性对抗训练,并提供两套企业级安全开关:
- 敏感操作需用户确认;
- 检测到潜在注入时自动中止任务。
- 可审计输出:3.5 Flash 能自动审查自身文档的可访问性问题,示范了自检能力的落地。
业务落地与生态
Google 通过 Gemini API 与 Gemini Enterprise Agent Platform 向开发者开放该功能,企业可以快速在以下场景部署:
- 连续软件测试:自动打开 IDE、运行单元测试、收集日志并生成报告。
- 知识工作自动化:在 Google Workspace 中读取邮件、生成会议纪要、更新表格。
- 跨应用协同:在浏览器中抓取数据后,调用 Google Maps、Sheets 等服务完成业务流程。
安全与合规
为防止模型在真实环境中被误用,Google 采用了“防御深度”策略:
- 对抗训练:在大规模真实交互数据上加入针对提示注入的负样本。
- 企业安全开关:可配置的用户确认和自动中止机制。
- 沙箱执行:建议开发者结合容器化沙箱、人工审核与严格的访问控制,实现多层防护。
市场反馈
首批试用企业已报告:使用 Gemini 3.5 Flash 的电脑使用功能后,自动化脚本的成功率提升 30% 以上,且因安全开关的加入,误操作风险显著下降。Google 计划在今年底前推出更多行业模板,帮助金融、医疗和制造等领域加速智能化转型。
开始使用
开发者可前往 Gemini API 文档,获取示例代码并在 Browserbase 提供的演示环境中快速验证功能。完整的最佳实践与安全指南已同步发布于 Google Cloud 文档中心。
引用:Gemini 3.5 Flash 产品经理 Mateo Quiros 在发布会中表示,“将电脑使用能力内置于主模型,是我们实现通用智能代理的关键一步”。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。