DeepSeek推出DSpark,加速DeepSeek‑V4推理,单用户生成提升最高85%

15 阅读3分钟前沿

背景

随着大模型在生产环境的并发请求激增,推理时的每-token时延成为制约业务响应的关键瓶颈。DeepSeek团队针对这一痛点,推出了 DSpark——一种基于**投机解码(speculative decoding)**的加速框架,直接在已有的DeepSeek‑V4权重上挂载草稿模块,无需重新训练目标模型。

DSpark核心技术

  • 并行草稿骨干 + 轻量Markov头:先由并行草稿(如DFlash)生成整块候选 logits,再通过仅关注前一 token 的Markov头注入前缀依赖,实现后缀衰减显著抑制。
  • 置信度调度验证:置信头预测每个草稿 token 被目标模型接受的概率,结合 Sequential Temperature Scaling 进行校准;硬件感知调度器依据 GPU 空闲程度动态决定本次请求验证的 token 数,忙时验证少,闲时验证多,保证无质量泄漏。
  • 训练策略:冻结目标模型,仅对草稿模块进行总变差(TV)损失优化,使草稿的接受率直接提升。

性能提升

场景离线接受长度提升线上单用户加速
代码生成+26%‑31% (相较Eagle3)+60%‑85% (相较MTP‑1)
开放式聊天+16%‑18% (相较DFlash)+57%‑78%

实验覆盖 Qwen3‑4B/8B/14B 与 Gemma4‑12B 等九类基准,DSpark 在所有领域均实现接受长度的显著提升,且在生产环境中保持 lossless(无质量退化)。

开源与生态

DeepSeek同步发布了两项资源:

  • DSpark 检查点(DeepSeek‑V4‑Pro‑DSpark、DeepSeek‑V4‑Flash‑DSpark)直接挂载在 HuggingFace,配套最小推理示例。
  • DeepSpec 代码库(MIT 许可),提供从数据准备、草稿训练到评估的全流程脚本,默认支持 8 GPU 单机。

社区可基于 DeepSpec 快速复现并进一步探索更深层的草稿结构或 RNN‑Head 等改进。

业界影响

DSpark 的出现为高并发服务场景提供了“一键加速”方案,尤其在代码生成、数学推理等接受率本就较高的任务上,可显著压缩响应时延。随着更多企业将大模型迁移至自研或云端部署,投机解码将成为提升算力利用率的关键技术路径。DeepSeek 通过开源生态的打造,亦为国内外研究者提供了可复现的基准,预计将在未来的模型服务优化赛道上形成新的标杆。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。