DeepSeek推出DSpark，加速DeepSeek‑V4推理，单用户生成提升最高85%

背景

随着大模型在生产环境的并发请求激增，推理时的每-token时延成为制约业务响应的关键瓶颈。DeepSeek团队针对这一痛点，推出了 DSpark——一种基于**投机解码（speculative decoding）**的加速框架，直接在已有的DeepSeek‑V4权重上挂载草稿模块，无需重新训练目标模型。

DSpark核心技术

并行草稿骨干 + 轻量Markov头：先由并行草稿（如DFlash）生成整块候选 logits，再通过仅关注前一 token 的Markov头注入前缀依赖，实现后缀衰减显著抑制。
置信度调度验证：置信头预测每个草稿 token 被目标模型接受的概率，结合 Sequential Temperature Scaling 进行校准；硬件感知调度器依据 GPU 空闲程度动态决定本次请求验证的 token 数，忙时验证少，闲时验证多，保证无质量泄漏。
训练策略：冻结目标模型，仅对草稿模块进行总变差（TV）损失优化，使草稿的接受率直接提升。

性能提升

场景	离线接受长度提升	线上单用户加速
代码生成	+26%‑31% (相较Eagle3)	+60%‑85% (相较MTP‑1)
开放式聊天	+16%‑18% (相较DFlash)	+57%‑78%

实验覆盖 Qwen3‑4B/8B/14B 与 Gemma4‑12B 等九类基准，DSpark 在所有领域均实现接受长度的显著提升，且在生产环境中保持 lossless（无质量退化）。

开源与生态

DeepSeek同步发布了两项资源：

DSpark 检查点（DeepSeek‑V4‑Pro‑DSpark、DeepSeek‑V4‑Flash‑DSpark）直接挂载在 HuggingFace，配套最小推理示例。
DeepSpec 代码库（MIT 许可），提供从数据准备、草稿训练到评估的全流程脚本，默认支持 8 GPU 单机。

社区可基于 DeepSpec 快速复现并进一步探索更深层的草稿结构或 RNN‑Head 等改进。

业界影响

DSpark 的出现为高并发服务场景提供了“一键加速”方案，尤其在代码生成、数学推理等接受率本就较高的任务上，可显著压缩响应时延。随着更多企业将大模型迁移至自研或云端部署，投机解码将成为提升算力利用率的关键技术路径。DeepSeek 通过开源生态的打造，亦为国内外研究者提供了可复现的基准，预计将在未来的模型服务优化赛道上形成新的标杆。

DeepSeek推出DSpark，加速DeepSeek‑V4推理，单用户生成提升最高85%

背景

DSpark核心技术

性能提升

开源与生态

业界影响

标签分类