: 首页; 看点啥; 插画图片

首页热点时事快手 Keye2.0 开源：多模态融合 DSA 注意力机制推动强化推理技术革新

快手 Keye2.0 开源：多模态融合 DSA 注意力机制推动强化推理技术革新

2026-06-03 0

快手最新发布的多模态大模型Keye-VL-2.0-30B-A3B在视频理解领域取得突破性进展，通过创新架构实现了远超同级别模型的性能表现。

总参数30B、推理时只激活3B的多模态模型，在多项视频理解榜单上压过了200B+的开源大模型

01
引言

快手推出的Keye-VL-2.0-30B-A3B大模型展现出卓越的视频理解能力。面对9分钟冰岛旅行Vlog这类复杂视频内容，常规模型仅能生成表面描述，而该模型能深入分析场景转换、提取关键细节并提供实用建议。通过引入DSA架构，模型实现了256K超长上下文处理能力，在多项基准测试中超越规模更大的开源模型。

输入视频：

Keye-VL-2.0-30B-A3B能够捕捉"冻手"等细节提供保暖建议，理解猎奇美食评论给出文化体验推荐，并基于"雪地车祸"画面智能建议跟团游更安全。

开源地址：

ModelScope：https://modelscope.cn/models/Kwai-Keye/Keye-VL-2.0-30B-A3B
GitHub：https://github.com/Kwai-Keye/Keye

02
视频理解：DSA落地多模态

视频理解的主要挑战在于长序列带来的计算负担和信息稀释问题。Keye-VL-2.0通过应用DSA技术，结合稀疏注意力和特征聚合，在处理长视频时能有效提取关键信息。这一创新使长序列Prefill成本降低50%，为大规模视频处理提供了高效解决方案。

TimeLens细粒度时序理解基准测试结果：

子任务	Keye-VL-2.0	Gemini-2.5-Pro	Gemini 3 Flash
Charades（日常动作）	58.4	—	61.2
ActivityNet（动作定位）	58.5	58.1	57.0
QVHighlights（高光提取）	70.1	—	49.5

ActivityNet表现优于Gemini系列，QVHighlights领先Gemini 3 Flash达20.6分。

陶杯工艺视频分析示例（9分33秒）：

方解石原料处理：原石破碎与溪流冲洗
煅烧与制浆：高温烧制后水飞工艺制浆
陶土处理：山地采集与去杂质
坯体制作：拉坯塑形与印章款识
施釉工艺：配比制浆与反复浸釉
烧制过程：装窑升温至成品展示

模型准确识别了所有专业工序并与时间轴精准对应。

《王者荣耀》高光提取示例（1分09秒）：

模型基于视觉特效、伤害数值和比分变化等综合因素，而非简单依赖击杀提示，准确识别了游戏中的关键战斗节点。

03
实现视频理解SOTA

Keye-VL-2.0通过时空编码优化，在多项基准测试中达到30B级别最佳水平。VideoMME V2测试中，输入帧数从64增至512时，准确率提升7个百分点。LongVideoBench测试达到74.10分，超越更大规模的模型。

长白山纪录片分析示例（8分04秒）：

准确追踪从图纸分歧到夜间施工的全过程
捕捉"冰雪融化"细节理解剧情转折
关联视觉元素与人物背景提炼故事内核

04
Agent能力

模型首次内置多模态Agent机制，具备复杂的多步任务处理能力。在LivecodeBench v6测试中获得77.10分，部分超越200B+模型。TAU2-Bench测试中达到82.58分，展现出优秀的工具调用能力。

05
MOPD与Context-RL

MOPD技术有效解决了多任务学习中的遗忘问题，通过细粒度建模强化核心信号。Context-RL机制则构建了稠密奖励信号，显著降低了复杂场景下的幻觉倾向。这两项技术的结合使模型在各类任务中均获得全面提升。

06
模型部署

推荐使用预构建Docker镜像快速部署。启动服务后，可通过标准接口进行图像和视频的多模态处理，支持自定义帧采样参数设置。示例代码展示了如何调用API实现图像描述和视频分析功能。

Keye-VL-2.0-30B-A3B通过技术创新实现了视频理解的重大突破，为多模态AI应用开辟了新的可能性。

喜欢(0)

盟重英雄传奇每日必做攻略是什么

小米米家首款枪灰色花洒正式发售：配备超大置物台与顶喷售价999元

快手 Keye2.0 开源：多模态融合 DSA 注意力机制 推动强化推理技术革新

01引言

02视频理解：DSA落地多模态

03实现视频理解SOTA

04Agent能力

05MOPD与Context-RL

06模型部署