首页
看点啥
插画图片
首页 看点啥 RedKnot - 小红书开源的长文本推理加速引擎

RedKnot - 小红书开源的长文本推理加速引擎

2026-07-01 0

RedKnot是什么

RedKnot 是小红书开源的长文本 LLM 推理加速引擎,将 KV Cache 按注意力头维度解耦,离线分类为需全局重算的全局头与可局部复用的局部头,配合 SegPagedAttention 实现按头分页存储与融合变长注意力内核,避免 attn_mask 带来的内核惩罚。RedKnot 同时引入稀疏 FFN,对高注意力分数的 token 执行稠密计算,解决短上下文 FFN 瓶颈。

RedKnot的主要功能

微信关注回复“开源”,加入AI开源项目交流群

RedKnot的技术原理

如何使用RedKnot

RedKnot的核心优势

RedKnot的项目地址

RedKnot的同类竞品对比

对比维度RedKnotCacheBlend核心定位按头解耦的 KV Cache 管理系统位置无关的 KV Cache 混合复用系统稀疏粒度按注意力头(head) 解耦,全局头重算、局部头复用按 Token 挑选重算子集,所有头共享同一 token 集合KV 复用范围任意位置(位置无关 PIC)任意位置(非前缀片段)在线开销(离线一次性 head 画像,请求间复用)有(在线选择 token 子集并混合)FFN 优化稀疏 FFN(仅 top-k 重要 token 计算)无存储布局按头分页(SegPagedAttention),物理稀疏稠密张量 + attn_mask,逻辑稀疏内核效率全程无 attn_mask,FlashAttention 快速路径构造 attn_mask,SDPA 慢路径,4.9–7.6× 内核惩罚浅层恢复浅层保守用局部注意力+稠密 FFN,保护残差流浅层 token 并集膨胀,需重算大量 token精度表现通常 ≥ 稠密基线 F1 的 95%,长文本可反超浅层误差大,精度依赖重算 token 比例

RedKnot的应用场景

喜欢(0)

上一篇

yuxinlu1 Gemma4-12B - 开源编程与Agentic模型系列

yuxinlu1 Gemma4-12B - 开源编程与Agentic模型系列

下一篇

虎牙VAM 1.0 - 虎牙发布的实时多模态数字人基础模型

虎牙VAM 1.0 - 虎牙发布的实时多模态数字人基础模型
猜你喜欢