首页
看点啥
插画图片
首页 看点啥 DeepSeek联合北大发布DSpark推理框架 无损提速最高85%真实生产环境落地

DeepSeek联合北大发布DSpark推理框架 无损提速最高85%真实生产环境落地

2026-06-30 0

近日,DeepSeek团队联合北京大学正式发布基于推测解码方向的全新研究成果DSpark,相关技术论文《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》同步公开,DeepSeek创始人梁文锋亲自位列论文作者名单,全程参与了这项核心推理技术的研发落地。

DeepSeek联合北大发布DSpark推理框架 无损提速最高85%落地真实生产环境

这项技术直击大语言模型长期存在的性能痛点,在完全保持生成文本分布无损的前提下,突破了高并发生产环境下的推理效率瓶颈。不同于传统推测解码方案在草稿生成、资源调度环节的固有缺陷,DSpark通过半自回归候选生成架构,融合并行主干网络的高速生成能力与轻量级顺序模块的时序依赖建模优势,大幅提升了长文本候选片段的通过率,同时搭配置信度动态调度机制,结合实时GPU负载状态自适应调整验证长度,把算力资源精准倾斜给高概率通过的候选Token,彻底避免无效计算带来的算力浪费。

目前DSpark已经完成工程化落地,正式部署在DeepSeek-V4-Flash与DeepSeek-V4-Pro的真实线上服务中,承接海量用户的日常访问流量。实测数据显示,在同等系统总吞吐量的前提下,单用户的文本生成速度较现有主流方案提升幅度达到60%至85%,在高并发访问峰值场景下,依然能保持稳定的低响应延迟,大幅改善了用户端的交互体验。

这项技术的落地也标志着大模型行业的竞争重心正在从单纯的参数规模比拼,转向底层推理效率的极致优化,通过算法层面的创新实现降本提速,为大模型服务的大规模普惠落地提供了关键的技术支撑。

喜欢(0)

上一篇

兆芯全系列ZX86自主CPU亮相MWC 2026上海站

兆芯全系列ZX86自主CPU亮相MWC 2026上海站

下一篇

高通计划把数据中心HBC架构用于智能手机 显著增强端侧AI能力

高通计划把数据中心HBC架构用于智能手机 显著增强端侧AI能力
猜你喜欢