腾讯对企业Agent产品矩阵进行升级
2026-06-06 3343680
2026-06-06 0
MiniMax M3支持秒级跨模态检索:将图文混合素材按文件名关联存入本地文件夹并压缩为≤2GB ZIP包,通过MiniMax Code v1.3.0+构建多模态索引后,可实现以图搜文、以文搜图及图文混合检索,结果附带路径与置信度分值。

你需要在上万张产品截图、设计稿、会议PPT和PRD文档中,快速定位某张特定界面的原始源文件,而不是靠关键词猜、靠人工翻、靠记忆蒙——MiniMax M3原生多模态能力支持图文联合嵌入,让跨模态检索真正落地为秒级响应的实际工作流。
把所有待检索的素材统一归入一个本地文件夹,结构不限层级,但需确保每张图片(.png/.jpg/.webp)与对应文字描述(.txt/.md/.pdf)在同一目录下或能通过文件名关联。例如:dashboard_v2.png 与 dashboard_v2.md 放在同一文件夹;若只有PDF,直接保留原始命名即可。
不建议混用OCR提取后的纯文本替代原始图像——M3对原图的视觉语义建模更鲁棒,尤其对图标布局、配色逻辑、UI组件间距等细节敏感,OCR文本会丢失这些关键跨模态锚点。
将整个文件夹压缩为ZIP包,大小建议控制在2GB以内。超过此体积时,M3在首次加载阶段可能触发内存溢出,导致后续嵌入失败。
打开MiniMax Code客户端(v1.3.0+),点击左上角「新建项目」→ 选择「多模态检索」模板 → 拖入刚准备好的ZIP包 → 点击「开始构建索引」。
这一步会自动调用M3的原生多模态编码器,对每张图生成视觉嵌入向量,同时对每份文本生成语义嵌入向量,并在内部建立图文对齐映射。整个过程无需人工标注或配对指令,M3在预训练阶段已习得图文联合表征能力。
【必须等待索引完成后再进行查询,中途关闭窗口会导致嵌入中断且不可恢复】
方法一:以图搜文
在检索框右侧点击「上传图片」图标,选中一张产品界面截图(如404页面设计稿),松手即触发检索。系统返回Top5匹配文本片段,按相关性排序,首条通常是该图对应的需求文档段落或开发说明。
方法二:以文搜图
直接输入自然语言描述:“用户点击‘导出报表’按钮后弹出的灰色半透明遮罩层,右上角带X关闭图标”,回车。M3会实时将该语句编码为跨模态查询向量,在图文联合空间中搜索最接近的图像节点。
方法三:混合触发(推荐高频使用)
先上传一张模糊草图(手绘线框图或Figma截图),再在检索框追加文字补充:“加上深蓝色主色调和圆角按钮,适配移动端iOS状态栏”。M3会融合视觉粗粒度结构 + 文本细粒度约束,精准命中设计规范文档中的对应章节及参考图。
所有结果均附带原始文件路径与置信度分值(0.0~1.0),点击任一结果可立即在MiniMax Code内打开原文档并高亮匹配段落。