Cloudflare发布Agents SDK 0.5.0 引入Rust驱动Infire引擎提升边缘LLM推理性能

45 阅读4分钟应用

背景与动机

在传统的无状态 Serverless 环境中,每一次对大语言模型(LLM)的调用都必须重新构建会话上下文,导致额外的网络延迟和 token 消耗。Cloudflare 通过 Agents SDK 将计算、状态与推理统一到边缘网络,实现了“状态即服务”,为长时会话的 AI 代理提供了底层支撑。

持久化状态:Durable Objects

  • 持久身份:每个 Agent 实例在 SDK 中获得一个稳定的 ID,所有后续请求都会路由到同一物理实例。
  • 内嵌 SQLite:每实例配备 1 GB 存储空间,支持零延迟读写会话历史和任务日志。
  • 单线程模型:Durable Objects 采用单线程处理,天然避免并发竞争,所有请求按队列顺序原子执行。

这种设计让开发者无需再维护外部数据库或 WebSocket 同步层,显著降低了系统复杂度与运维成本。

Rust‑驱动的 Infire 推理引擎

Infire 是 Cloudflare 自研的 Rust 编写的 LLM 推理引擎,旨在克服 Python 生态(GIL、GC)带来的性能瓶颈。其核心优化包括:

  • Granular CUDA Graphs:针对每一种 batch 大小即时生成 CUDA 图,驱动一次性执行,CPU 开销降低 82%。
  • Paged KV Caching:将 KV 缓存切分为非连续块,防止内存碎片,实现“连续批处理”。
  • 性能对比:在 Llama 3 8B 模型下,Infire 的吞吐提升约 7%,CPU 使用率仅为 25%,而 vLLM 超过 140%。

Code Mode 与 Token 效率

传统工具调用采用 “tool‑calling” 模式,需要 LLM 与执行环境多轮交互。Code Mode 让 LLM 直接生成 TypeScript 脚本,在安全的 V8 isolate 中一次性执行多个工具,带来:

  • Token 节约:复杂任务(如查询 10 个文件)可降低 87.5% 的 token 消耗。
  • 安全增强:沙箱无网络访问,仅通过 Model Context Protocol(MCP)绑定与外部服务交互,防止凭证泄露。

v0.5.0 关键实用工具

  • this.retry():支持指数回退和抖动的异步重试机制。
  • Protocol Suppression:可为 IoT/MQTT 客户端关闭 JSON 文本帧,适配二进制协议。
  • Stable AI Chat(@cloudflare/ai-chat 0.1.0):内置 SQLite 持久化,自动压缩超过 2 MB 的消息。

行业意义

  1. 边缘持久化:通过 Durable Objects,AI 代理在边缘即可实现长时记忆,突破了无状态函数的局限。
  2. 高效推理:Infire 的 Rust 实现展示了非 Python 推理栈在算力利用率和成本控制上的潜力,为未来的边缘大模型部署提供了新范式。
  3. 安全与成本双赢:Code Mode 将工具链封装为一次性脚本,既降低了 token 成本,又通过沙箱机制提升了安全性。

展望

随着 Cloudflare 继续扩展 MCP 服务器数量,开发者将能够在同一平台上统一管理 DNS、R2、Workers KV 等云资源,实现真正的“一站式 AI 代理”。该 SDK 的发布标志着边缘 AI 从概念验证进入生产化阶段,预计将在企业级自动化、客服机器人以及实时数据处理等场景中快速落地。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。