小米MiMo重磅发布：模型推理系统全链路优化技术首度揭秘最高降本幅度达99%

2026-07-05 0

小米MiMo-V2.5系列API近期完成大幅降价，最高降幅达99%，同时公开了模型推理系统的全链路优化方案。这项技术突破为长序列场景下的低成本推理奠定了基础。

最高降价 99%，小米 MiMo 首次公开模型推理系统全链路优化技术细节

研发团队围绕Hybrid SWA+MoE+多模态复合架构，对KVCache管理、分级缓存、前缀缓存到调度策略等环节进行了系统性重构。通过将KVCache存储压缩至同级方案的1/7，显著降低了长序列推理成本。这一创新不仅保持了模型原有能力，更通过提升系统工程能力实现了相同硬件条件下的更高吞吐和更低延迟。

主要内容概述

1、Hybrid SWA架构的选择依据

大模型推理的主要成本来源于KVCache。MiMo-V2.5-Pro在70层Transformer中仅10层采用Full Attention，其余60层使用滑动窗口注意力机制。这种设计将KVCache存储需求降至全Full Attention方案的1/7，同时Prefill阶段计算成本也大幅降低。

在工程实现方面，团队解决了SWA缓存命中判定、前缀匹配等复杂问题，通过多级存储数据搬运和异步预取技术，将理论优势转化为实际收益。特别是针对SWA层与Full Attention层的差异，优化了缓存管理策略，确保系统能够充分发挥混合架构的潜力。

2、从理论到实践的工程优化

工程团队围绕三个核心问题展开工作：缓存如何真正节省、节省空间如何有效利用、生成速度如何实质提升。

首先采用双池分治策略，将KVCache拆分为Full KV Pool与SWA KV Pool。通过环形缓冲区设计和独立淘汰机制，实现了约7倍的容量效率提升。其次重构前缀缓存树，将匹配规则升级为"窗口安全长度"，使线上命中率达到93%以上。最后引入GCache三级缓存系统，支持数据在GPU显存、CPU内存和NVMe SSD间智能流转。

在调度优化方面，实现了KVCache亲和调度与计算量感知优先调度，将TTFT P90降低30%。Prefill链路通过缩减Expert Parallelism和采用三级长度分桶策略，性能提升约40%。Decode阶段则通过显存扩容和MTP投机解码技术，使单节点并发能力显著增强。

多模态处理方面，支持视觉、音频、视频的跨模态理解。通过跨请求组Batch、GPU预处理等技术，将1小时视频处理延时从156秒降至23秒，整体Encoder吞吐提升至2倍。

3、Hybrid SWA的推广应用

MiMo-V2.5系列的优化是多维度协同作用的结果。通过系统性重构KVCache管理、分级缓存等关键环节，团队成功将Hybrid SWA的理论优势转化为生产环境的实际效益。

这些工程创新使Hybrid SWA展现出其应有的价值：一个在长文推理上兼具性能与效率的优秀架构。部分优化已通过PR形式贡献给开源社区，希望推动这类复合架构的广泛应用。

小米通过技术创新显著降低了AI推理成本，并将节省的费用回馈用户。这套全链路优化方案为大模型服务的商业化应用提供了重要参考价值。

喜欢(0)

Meta追踪员工鼠标数据用于AI训练：涉嫌违反欧盟隐私法规

奥迪E7X上市：标配即顶配搭配L3级技术重新定义25万级豪华电动SUV市场

小米MiMo重磅发布：模型推理系统全链路优化技术首度揭秘 最高降本幅度达99%

主要内容概述

1、Hybrid SWA架构的选择依据

2、从理论到实践的工程优化

3、Hybrid SWA的推广应用

小米MiMo重磅发布：模型推理系统全链路优化技术首度揭秘最高降本幅度达99%