BerriAI开源LiteLLM Agent平台实现Kubernetes隔离沙盒与持久会话管理

背景与意义

随着大型语言模型（LLM）从单轮对话向多步工具调用演进，AI 代理的状态管理与运行环境安全成为制约生产落地的核心瓶颈。传统做法往往把多个代理塞进同一容器，导致密钥泄漏、会话丢失以及难以跨团队治理。LiteLLM Agent平台正是为了解决这些痛点而打造的自托管层，兼容已有的 LiteLLM Gateway，提供 沙盒隔离 与 会话连续性 两大基础能力。

关键特性

多租户沙盒：基于 kubernetes-sigs/agent-sandbox CRD，每个团队、每个上下文拥有独立的容器实例，互不干扰。
会话持久化：会话状态保存在 PostgreSQL，Pod 重启或升级后仍能恢复历史对话与工具调用结果。
统一仪表盘：Next.js + TypeScript 实现的 Web UI，支持 Agent CRUD、会话监控、实时日志查看。
凭证安全注入：.env 中以 CONTAINER_ENV_ 为前缀的变量会自动去前缀注入到沙盒容器，避免在镜像中硬编码密钥。
MIT 完全开源：代码、文档、部署脚本全部公开，社区可直接提交 Issue 或 PR。

技术架构

组件	作用	关键技术
Web Dashboard	交互界面	Next.js, TypeScript, CSS
Worker	异步任务调度	TypeScript
PostgreSQL	持久化会话 & 配置	Dockerized PostgreSQL, init‑container migration
Sandbox Cluster	实际执行沙盒	Kubernetes (kind 本地 / AWS EKS 生产), `agent-sandbox` CRD
LiteLLM Gateway	模型路由、计费、限流	Python SDK, OpenAI‑compatible API

架构上，Dashboard 与 Worker 通过内部 HTTP 与 Postgres 交互；Sandbox Cluster 通过 CRD 控制器动态创建/销毁每个会话的容器；所有模型请求最终交由外部运行的 LiteLLM Gateway 处理。

快速上手（本地开发）

安装前置工具：Docker Desktop、kind、kubectl、helm、运行中的 LiteLLM Gateway。
克隆仓库并配置 .env（填入 LITELLM_GATEWAY_URL 等）。
执行 bin/kind-up.sh，在本地创建名为 agent-sbx 的 Kind 集群并安装 sandbox 控制器。
docker compose up 启动 Postgres、Web 与 Worker。
浏览 http://localhost:3000 即可看到完整的管理面板。

生产部署指南

沙盒层：推荐使用 AWS EKS，脚本 bin/eks-up.sh 自动完成集群创建与 CRD 安装。
Web/Worker：可部署至 Render、Fly.io 或自建 VM，平台提供 Render Blueprint 一键部署。
持久化：生产环境建议使用托管 PostgreSQL（如 AWS RDS）或自建高可用集群。
安全：通过 CONTAINER_ENV_ 前缀管理 API Key、数据库凭证等敏感信息，所有沙盒均通过 Vault 代理访问。

业界影响

LiteLLM Agent平台填补了 企业级 AI 代理 在 安全隔离 与 状态持久 两方面的空白。它让金融、医疗等受监管行业能够在本地完整控制数据流，同时利用 LiteLLM 已集成的 100+ LLM 提供商实现模型多样化。随着生成式 AI 向任务化、工具化转型，类似的平台有望成为基础设施层的标准组件。

“开源的自托管代理平台让我们在不泄露业务数据的前提下，快速上线多模态工作流。” — 某金融科技公司技术负责人

如需进一步探索或贡献代码，请前往 GitHub：github.com/BerriAI/litellm-agent-platform。

BerriAI开源LiteLLM Agent平台 实现Kubernetes隔离沙盒与持久会话管理