首页
看点啥
插画图片
首页 热点时事 快手 Keye2.0 开源:多模态融合 DSA 注意力机制 推动强化推理技术革新

快手 Keye2.0 开源:多模态融合 DSA 注意力机制 推动强化推理技术革新

2026-06-03 0

快手最新发布的多模态大模型Keye-VL-2.0-30B-A3B在视频理解领域取得突破性进展,通过创新架构实现了远超同级别模型的性能表现。

总参数30B、推理时只激活3B的多模态模型,在多项视频理解榜单上压过了200B+的开源大模型

01

引言

快手推出的Keye-VL-2.0-30B-A3B大模型展现出卓越的视频理解能力。面对9分钟冰岛旅行Vlog这类复杂视频内容,常规模型仅能生成表面描述,而该模型能深入分析场景转换、提取关键细节并提供实用建议。通过引入DSA架构,模型实现了256K超长上下文处理能力,在多项基准测试中超越规模更大的开源模型。

输入视频:

Keye-VL-2.0-30B-A3B能够捕捉"冻手"等细节提供保暖建议,理解猎奇美食评论给出文化体验推荐,并基于"雪地车祸"画面智能建议跟团游更安全。

开源地址:

  1. ModelScope:https://modelscope.cn/models/Kwai-Keye/Keye-VL-2.0-30B-A3B
  2. GitHub:https://github.com/Kwai-Keye/Keye

02

视频理解:DSA落地多模态

视频理解的主要挑战在于长序列带来的计算负担和信息稀释问题。Keye-VL-2.0通过应用DSA技术,结合稀疏注意力和特征聚合,在处理长视频时能有效提取关键信息。这一创新使长序列Prefill成本降低50%,为大规模视频处理提供了高效解决方案。

TimeLens细粒度时序理解基准测试结果:

子任务

Keye-VL-2.0

Gemini-2.5-Pro

Gemini 3 Flash

Charades(日常动作)

58.4

61.2

ActivityNet(动作定位)

58.5

58.1

57.0

QVHighlights(高光提取)

70.1

49.5

ActivityNet表现优于Gemini系列,QVHighlights领先Gemini 3 Flash达20.6分。

陶杯工艺视频分析示例(9分33秒):

  1. 方解石原料处理:原石破碎与溪流冲洗
  2. 煅烧与制浆:高温烧制后水飞工艺制浆
  3. 陶土处理:山地采集与去杂质
  4. 坯体制作:拉坯塑形与印章款识
  5. 施釉工艺:配比制浆与反复浸釉
  6. 烧制过程:装窑升温至成品展示

模型准确识别了所有专业工序并与时间轴精准对应。

《王者荣耀》高光提取示例(1分09秒):

模型基于视觉特效、伤害数值和比分变化等综合因素,而非简单依赖击杀提示,准确识别了游戏中的关键战斗节点。

03

实现视频理解SOTA

Keye-VL-2.0通过时空编码优化,在多项基准测试中达到30B级别最佳水平。VideoMME V2测试中,输入帧数从64增至512时,准确率提升7个百分点。LongVideoBench测试达到74.10分,超越更大规模的模型。

长白山纪录片分析示例(8分04秒):

  1. 准确追踪从图纸分歧到夜间施工的全过程
  2. 捕捉"冰雪融化"细节理解剧情转折
  3. 关联视觉元素与人物背景提炼故事内核

04

Agent能力

模型首次内置多模态Agent机制,具备复杂的多步任务处理能力。在LivecodeBench v6测试中获得77.10分,部分超越200B+模型。TAU2-Bench测试中达到82.58分,展现出优秀的工具调用能力。

05

MOPD与Context-RL

MOPD技术有效解决了多任务学习中的遗忘问题,通过细粒度建模强化核心信号。Context-RL机制则构建了稠密奖励信号,显著降低了复杂场景下的幻觉倾向。这两项技术的结合使模型在各类任务中均获得全面提升。

06

模型部署

推荐使用预构建Docker镜像快速部署。启动服务后,可通过标准接口进行图像和视频的多模态处理,支持自定义帧采样参数设置。示例代码展示了如何调用API实现图像描述和视频分析功能。

Keye-VL-2.0-30B-A3B通过技术创新实现了视频理解的重大突破,为多模态AI应用开辟了新的可能性。

喜欢(0)

上一篇

盟重英雄传奇每日必做攻略是什么

盟重英雄传奇每日必做攻略是什么

下一篇

小米米家首款枪灰色花洒正式发售:配备超大置物台与顶喷 售价999元

小米米家首款枪灰色花洒正式发售:配备超大置物台与顶喷 售价999元
猜你喜欢