Google发布Gemini 3.1 Flash‑Lite 兼具极速与低成本 助力高频开发者工作负载
•10 阅读•3分钟•前沿
GoogleLLMVertex AIGemini 3.1 Flash‑Lite
•10 阅读•3分钟•前沿

关键亮点
- 成本优势:输入代价 $0.25/1M token,输出代价 $1.50/1M token,远低于同级别模型。
- 速度提升:在Artificial Analysis基准上实现 2.5 倍更快的首答时间(Time to First Answer Token),整体输出速度提升 45%。
- 质量保持:Elo 分数 1432,GPQA Diamond 达 86.9%,MMMU Pro 达 76.8%,在推理和多模态理解上与更大模型持平或超越。
性能与成本对比
| 模型 | 价格($/1M token) | 首答时间提升 | Elo 分数 | 代表基准表现 |
|---|---|---|---|---|
| Gemini 2.5 Flash | $0.40/输入, $2.00/输出 | 基准 | 1380 | GPQA 84% / MMMU 73% |
| Gemini 3.1 Flash‑Lite | $0.25/输入, $1.50/输出 | +2.5× | 1432 | GPQA 86.9% / MMMU 76.8% |
典型应用场景
- 大批量翻译:实时翻译电商商品描述,降低每百万字符成本至原模型的约三分之二。
- 内容审核:在社交平台快速过滤违规文本和图像,保持高吞吐量。
- 界面与仪表盘生成:根据结构化数据即时生成用户界面原型或天气仪表盘。
- 复杂多步任务:在 SaaS 代理中执行指令串联,实现订单处理、报告生成等业务流程。
早期采用者反馈
“Gemini 3.1 Flash‑Lite 在保持推理深度的同时,将响应时间压到毫秒级,极大提升了我们内部聊天机器人的并发能力。” – Latitude
“在电商项目中,用它自动填充上千商品的属性卡片,仅用几分钟完成,成本比上一代模型下降约30%。” – Cartwheel
“模型的‘思考层级’参数让我们在不同任务间灵活权衡速度与精度,特别适合需要实时反馈的交互式应用。” – Whering
展望
Gemini 3.1 Flash‑Lite 的发布标志着 Google 在大规模可商用 LLM 领域的成本-性能平衡取得新突破。随着更多企业在 Vertex AI 上部署,该模型有望成为高频、低延迟场景的首选底层引擎,进一步推动生成式 AI 在电商、金融、教育等行业的落地。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。