Google发布Gemini 3.1 Flash‑Lite 兼具极速与低成本助力高频开发者工作负载

关键亮点

成本优势：输入代价 $0.25/1M token，输出代价 $1.50/1M token，远低于同级别模型。
速度提升：在Artificial Analysis基准上实现 2.5 倍更快的首答时间（Time to First Answer Token），整体输出速度提升 45%。
质量保持：Elo 分数 1432，GPQA Diamond 达 86.9%，MMMU Pro 达 76.8%，在推理和多模态理解上与更大模型持平或超越。

模型	价格（$/1M token）	首答时间提升	Elo 分数	代表基准表现
Gemini 2.5 Flash	$0.40/输入, $2.00/输出	基准	1380	GPQA 84% / MMMU 73%
Gemini 3.1 Flash‑Lite	$0.25/输入, $1.50/输出	+2.5×	1432	GPQA 86.9% / MMMU 76.8%

“Gemini 3.1 Flash‑Lite 在保持推理深度的同时，将响应时间压到毫秒级，极大提升了我们内部聊天机器人的并发能力。” – Latitude

“在电商项目中，用它自动填充上千商品的属性卡片，仅用几分钟完成，成本比上一代模型下降约30%。” – Cartwheel

“模型的‘思考层级’参数让我们在不同任务间灵活权衡速度与精度，特别适合需要实时反馈的交互式应用。” – Whering

Gemini 3.1 Flash‑Lite 的发布标志着 Google 在大规模可商用 LLM 领域的成本-性能平衡取得新突破。随着更多企业在 Vertex AI 上部署，该模型有望成为高频、低延迟场景的首选底层引擎，进一步推动生成式 AI 在电商、金融、教育等行业的落地。