Google发布Gemini 3.1 Flash‑Lite 兼具极速与低成本 助力高频开发者工作负载

10 阅读3分钟前沿
Google发布Gemini 3.1 Flash‑Lite 兼具极速与低成本 助力高频开发者工作负载

关键亮点

  • 成本优势:输入代价 $0.25/1M token,输出代价 $1.50/1M token,远低于同级别模型。
  • 速度提升:在Artificial Analysis基准上实现 2.5 倍更快的首答时间(Time to First Answer Token),整体输出速度提升 45%。
  • 质量保持:Elo 分数 1432,GPQA Diamond 达 86.9%,MMMU Pro 达 76.8%,在推理和多模态理解上与更大模型持平或超越。

性能与成本对比

模型价格($/1M token)首答时间提升Elo 分数代表基准表现
Gemini 2.5 Flash$0.40/输入, $2.00/输出基准1380GPQA 84% / MMMU 73%
Gemini 3.1 Flash‑Lite$0.25/输入, $1.50/输出+2.5×1432GPQA 86.9% / MMMU 76.8%

典型应用场景

  • 大批量翻译:实时翻译电商商品描述,降低每百万字符成本至原模型的约三分之二。
  • 内容审核:在社交平台快速过滤违规文本和图像,保持高吞吐量。
  • 界面与仪表盘生成:根据结构化数据即时生成用户界面原型或天气仪表盘。
  • 复杂多步任务:在 SaaS 代理中执行指令串联,实现订单处理、报告生成等业务流程。

早期采用者反馈

“Gemini 3.1 Flash‑Lite 在保持推理深度的同时,将响应时间压到毫秒级,极大提升了我们内部聊天机器人的并发能力。” – Latitude

“在电商项目中,用它自动填充上千商品的属性卡片,仅用几分钟完成,成本比上一代模型下降约30%。” – Cartwheel

“模型的‘思考层级’参数让我们在不同任务间灵活权衡速度与精度,特别适合需要实时反馈的交互式应用。” – Whering

展望

Gemini 3.1 Flash‑Lite 的发布标志着 Google 在大规模可商用 LLM 领域的成本-性能平衡取得新突破。随着更多企业在 Vertex AI 上部署,该模型有望成为高频、低延迟场景的首选底层引擎,进一步推动生成式 AI 在电商、金融、教育等行业的落地。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。