DSpark – DeepSeek 联合北京大学开源的推测解码加速框架
DSpark是什么
DSpark 是 DeepSeek 联合北京大学开源的推测解码加速框架,专门解决大模型自回归生成速度慢、像”挤牙膏”的痛点。采用半自回归生成架构,通过轻量级 Markov 头建模 token 间依赖,兼顾并行草稿的速度与连贯性;同时引入置信度调度验证,根据系统负载动态分配验证资源。框架已部署至 DeepSeek-V4-Flash/Pro 生产环境,单用户生成速度提升 57%–85%,吞吐量最高提升 400%。项目以 MIT 协议开源,兼容 Qwen、Gemma 等主流模型,为大模型高效推理提供了实用的工程方案。

DSpark的主要功能
- 半自回归草稿生成:保留并行草稿模型的高速特性,同时加入轻量级 Markov 头(或 RNN 头)建模相邻 token 依赖,缓解传统并行方案的后缀衰减问题,让候选序列前后更连贯。
- 置信度分数预测:为每个候选 token 输出置信度分数,实时预估该 token 被目标模型接受的概率,为后续调度提供决策依据。
- 硬件感知前缀调度:根据系统并发负载、候选置信度及引擎吞吐曲线,动态决定每个请求应验证的 token 长度,系统空闲时多验证,繁忙时精简低置信度请求。
- 生产级推理加速:已集成至 DeepSeek-V4-Flash/Pro 线上服务,在真实高并发流量中实现单用户生成速度 57%–85% 提升,聚合吞吐量最高提升 400%。
- 多模型兼容支持:除 DeepSeek 自研模型外,兼容 Qwen(通义千问)、Gemma 等主流开源大模型。
- 全栈开源:以 MIT 协议开源完整代码、论文、训练脚本及模型检查点,降低开发者接入门槛。
如何使用DSpark
- 克隆项目:克隆 DeepSpec 开源仓库并配置运行环境,安装相关依赖项
- 下载模型:下载目标模型(如 DeepSeek-V4、Qwen3 或 Gemma4)及对应的 DSpark 草稿模型检查点
- 按需选择依赖模块:加载半自回归草稿模型,按需选择 Markov head 或 RNN head 作为顺序依赖模块
- 调度验证:启用置信度调度验证,配置硬件感知前缀调度器以适应当前 GPU 集群的并发负载与吞吐曲线
- 集成引擎:将 DSpark 集成到现有推理引擎(如 vLLM 或自研服务框架),替换传统 MTP-1 或标准自回归解码流程
- 发起请求:通过 API 或命令行发起请求,系统自动执行”草稿生成→置信度评估→动态验证→返回结果”的加速推理流程
DSpark的官网地址
- GitHub 地址:https://github.com/deepseek-ai/DeepSpec
- Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark
技术论文:https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf
DSpark的核心优势
- 半自回归架构,兼顾速度与连贯性:保留并行草稿模型的高吞吐优势,同时通过轻量级 Markov 头(或 RNN 头)建模 token 间依赖,有效缓解传统并行方案的后缀衰减问题,草稿前后更连贯、接受率更高。
- 置信度动态调度,资源利用更智能:引入置信度分数预测与硬件感知前缀调度器,根据系统并发负载、候选存活概率及引擎吞吐曲线动态调整验证长度,系统空闲时多验证、繁忙时精简低置信度请求,避免浪费 batch capacity。
- 生产级性能提升显著:已部署于 DeepSeek-V4-Flash/Pro 线上服务,在真实高并发流量中实现单用户生成速度提升 57%–85%,聚合吞吐量最高提升 400%。
- 广泛模型兼容性:不仅支持 DeepSeek 自研模型,还兼容 Qwen(通义千问)、Gemma 等主流开源大模型,适用场景灵活。
- 全栈开源,接入门槛低:以 MIT 协议开源完整代码、论文、训练脚本及模型检查点,开发者可快速集成到 vLLM 或自研推理引擎。
- 零质量损耗加速:基于推测解码机制,目标模型输出分布保持不变,在显著提速的同时不牺牲生成内容的准确性与质量。
DSpark的同类竞品对比
| 对比维度 | DSpark(DeepSeek) | Eagle3(自回归草稿代表) | DFlash(并行草稿代表) |
|---|---|---|---|
| 技术路线 | 半自回归生成 + 置信度调度验证 | 纯自回归草稿模型 | 纯并行草稿模型 |
| 草稿生成方式 | 并行块快速生成 + Markov/RNN 头建模块内依赖 | 逐 token 顺序生成草稿 | 一次性并行生成整段候选块 |
| 依赖建模能力 | 强:通过轻量级顺序模块显式建模相邻 token 转移关系 | 强:天然保留完整自回归依赖,上下文连贯 | 弱:块内 token 缺少顺序依赖,易出现前后不一致组合 |
| 验证策略 | 动态调度:根据置信度分数与系统负载实时调整验证长度 | 固定或启发式验证长度 | 通常固定验证整段候选块 |
| 速度 vs 一致性 | 兼顾:并行主干保证速度,顺序模块缓解后缀衰减 | 一致性高但草稿阶段本身较慢,候选越长越吃亏 | 速度快但后缀衰减严重,越往后接受率越低 |
| 生产环境适配 | 硬件感知前缀调度器,根据并发负载动态分配 batch capacity | 需额外优化以适配高并发调度 | 易浪费 batch capacity 验证低置信度 token |
| 典型性能表现 | 相比 Eagle3 平均接受长度提升 26.7%–30.9%;相比 DFlash 提升 16.3%–18.4% | 接受长度中等,短序列表现较好 | 接受长度初期高但快速衰减,长序列效率下降 |
DSpark的应用场景
- 实时聊天与对话系统:针对高交互场景下的低延迟需求,DSpark 能显著提升单用户生成速度,改善对话流畅度与用户体验。
- 代码助手与编程工具:代码生成类任务的候选 token 接受率高(平均 accepted length 达 5.12),DSpark 可加速代码补全、自动纠错与多文件生成。
- 多轮 Agent 工作流:在多轮调用、工具链串联的复杂任务中,减少每轮响应延迟,避免延迟随轮次叠加放大。
- 数学推理与在线教育:数学类任务(GSM8K、MATH、AIME 等)的候选接受率最高(平均 5.57),适合推理步骤长、结构化强的解题场景。
- 高并发云端 API 服务:通过硬件感知前缀调度器动态适配 GPU 负载,在真实高并发流量下实现吞吐量最高 400% 提升,降低单位请求成本。
- 开源模型本地部署:兼容 Qwen、Gemma 等主流模型,以 MIT 协议开源,便于中小企业和开发者将高效推理能力集成到自研框架或 vLLM 等引擎中。
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号随时掌握互联网精彩
赞助链接
排名
热点
搜索指数
- 1 习近平将发表二〇二六年新年贺词 7904141
- 2 2026年国补政策来了 7808738
- 3 东部战区:开火!开火!全部命中! 7712893
- 4 2026年这些民生政策将惠及百姓 7616985
- 5 小学食堂米线过期2.5小时被罚5万 7519709
- 6 解放军喊话驱离台军 原声曝光 7428214
- 7 为博流量直播踩烈士陵墓?绝不姑息 7327605
- 8 每月最高800元!多地发放养老消费券 7238391
- 9 数字人民币升级 1月1日起将计付利息 7141831
- 10 2026年1月1日起 一批新规将施行 7040675




![米叮z 躺吃的一天 [哇][哇] 饭菜好评](https://imgs.knowsafe.com:8087/img/aideep/2022/7/2/3530ac084792c5d912439fc7f96a6da1.jpg?w=250)



戌尻リップの
