NVIDIA推出Dynamo 0.9.0 去除NATS与ETCD 实现多模态解耦并引入FlashIndexer加速
•23 阅读•3分钟•视野
NVIDIA多模态DynamoFlashIndexerGPU调度
•23 阅读•3分钟•视野
关键升级概览
NVIDIA 本周正式推出 Dynamo 0.9.0,是该平台自 2022 年以来最大的一次架构改动。核心目标是 降低运维复杂度、 提升多模态推理效率。
- 去除 NATS 与 ETCD:原先负责服务发现和消息路由的两套外部依赖被全新 Event Plane(基于 ZeroMQ)和 Discovery Plane(Kubernetes 原生)取代,削减了运营负担。
- 多模态 E/P/D 拆分:vLLM、SGLang、TensorRT‑LLM 三大后端均实现 Encode/Prefill/Decode(E/P/D)划分,编码、前缀填充、解码可在不同 GPU 组上并行运行,避免视觉编码成为瓶颈。
FlashIndexer 预览
为解决长上下文 KV 缓存跨 GPU 迁移的高延迟,Dynamo 引入 FlashIndexer 原型。该组件基于磁盘级索引加速 KV 检索,将 首次 Token 响应时间(TTFT) 大幅压缩,虽仍为 preview,却已展示出接近本地推理的速度潜力。
智能调度与负载预测
Planner 采用 Kalman 滤波 对历史请求负载进行预测,并结合 Kubernetes Gateway API Inference Extension (GAIE) 的路由提示,实现:
- 预判 GPU 使用率,将新请求自动分配至空闲节点;
- 在突发流量下保持高并发吞吐,避免单机过载。
技术栈一览
| 组件 | 版本 |
|---|---|
| vLLM | 0.14.1 |
| SGLang | 0.5.8 |
| TensorRT‑LLM | 1.3.0‑rc1 |
| NIXL (RDMA) | 0.9.0 |
| Rust dynamo‑tokens | — |
“Dynamo 0.9.0 的最大亮点在于把原本捆绑的服务发现与消息系统解耦,为大模型部署提供了更灵活、更低成本的路径。”—— NVIDIA 官方发布稿
整体来看,Dynamo 0.9.0 在 运维负担、多模态解耦 与 KV 缓存延迟 上实现了显著突破,预计将提升 GPU 算力利用率,为千亿参数模型的高效推理奠定基础。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。