首页
看点啥
插画图片
首页 热点时事 MMAE 开源:首个通用音频编辑评测基准 最强模型精确编辑率不足 5%

MMAE 开源:首个通用音频编辑评测基准 最强模型精确编辑率不足 5%

2026-06-16 0

魔搭ModelScope社区 2026-06-15 19:54 美国

上海交大等机构联合发布首个通用音频编辑评测基准MMAE,涵盖2000条真实场景任务。评测显示,当前最强模型指令遵循率仅约50%,完美编辑率不足5%,揭示音频编辑技术距实用仍有较大差距。

01

引言

上海交通大学、上海创智学院、南洋理工大学、腾讯混元团队、天津大学、数搭国际数据开源社区、北京大学、复旦大学等机构联合发布 MMAE(Massive Multitask Audio Editing Benchmark),首个面向通用指令式音频编辑的综合评测基准。MMAE 包含 2,000 条真实场景音频编辑任务与 17,741 条细粒度 rubric 评测项,系统覆盖 7 种模态、6 级难度、8 类操作。团队对 5 款主流音频编辑模型做了全面"体检",结果显示:即便表现最优的模型,指令遵循率也仅在五成上下,完美编辑率(EMR)更是全部低于 5%

开源地址:

01

数据集构成

MMAE共包含2000道音频编辑任务,系统性覆盖模态、复杂度与操作类型三个维度,形成结构化、多层次的评测体系:

维度

内容

数据规模

2,000 条高保真测评样本 + 17,741 条 rubric 评测项

覆盖模态

7 种:sound / music / speech 及其两两、三者混合(sound-music / sound-speech / music-speech / sound-music-speech)

难度分级

6 级:single / multi-part / multi-instruction / multi-audio / multi-round / multi-hop;从简单单步操作到多主体、多指令、多音频输入、多轮迭代、多跳推理

操作粒度

2 级:local(局部)/ global(全局)

操作类型

8 类:local addition(增) / local removal(删) / local replacement(改) / local extraction(查) / local alteration(属性编辑) / global background change(背景编辑) / global foreground change(前景编辑) / global alteration(属性编辑)

△ MMAE在三个维度上的数据分布

△ MMAE中覆盖不同模态、复杂度、操作类型的数据示例

02

数据构建与评测方法

真实音频 + 人机协作标注

MMAE 所有测评样本均来自真实场景音频,而非合成数据。初始标注由专业团队通过人机协作(Human-LLM Collaboration)完成,再经过多轮精细化修订与独立审核:每条数据都由不同于原标注者的审核人员复核,不达标的样本被反复修正或淘汰,以保证数据高质量、无歧义、可验证。

rubric 评测体系 

这是 MMAE 区别于传统评测的核心创新。FAD、CLAP 等粗粒度指标只能给出"总体打分",无法定位模型究竟在哪一环节出错。MMAE 为每条样本平均设计约 9 条细粒度 rubric,每条都是一个原子化选择题,分别从两个维度评估:

同时引入EMR(Exact Match Rate,精确匹配率):仅当一条样本的所有 rubric 全部通过才计为成功。这套设计既保证可解释性(哪一环出错一目了然),又能有效阻断"只改不保"或"只保不改"的投机策略。

以一个多音频任务为例,指令为"把音频 2 的歌词全改成 'Hachimi',声音用音频 1 的音色",对应 5 条 rubric:歌词是否为反复出现的"Hachimi"(IFR)、音色是否接近音频 1(IFR)、伴奏是否与原音频 2 基本一致(CR)、旋律节奏是否被改动(CR)、是否出现音质劣化(CR)。

Rubrics标注与测评 

17,741 条 rubric 通过流水线自动化生成:先用Omni-Captioner中提出的 Omni-Detective 管线提取音频细粒度标注,再由 LLM 批量生成草稿,最后人工审核修正。评分阶段由多模态大模型 Qwen3-Omni 担任"阅卷老师"逐条判分;为降低位置偏见,每次评分随机打乱选项顺序,每条 rubric 独立评估 3 次取多数决。

03

实验结果

研究团队评测了5个具有代表性的音频编辑模型,包括Step-Audio-EditX、Ming-UniAudio、MMEdit、Audio-Omni和SmartDJ。结果显示,即便是当前性能最优的模型,在整体编辑任务中也仅能正确完成不到一半的操作,而能够同时做到“修改准确且不破坏原有内容”的完美编辑案例则极为有限。

关键发现

数据

最强模型(全集)Step-Audio-EditX

Step-Audio-EditX | IFR 44.86%,CR 58.88%

最强模型(≤10s子集)Audio-Omni

Audio-Omni | IFR 50.73%,CR 56.93%

所有模型的完美编辑率(EMR)

均低于5%

进一步分析表明,随着任务复杂度的提升(从单步操作到多轮、多跳、多指令),模型性能显著下降;在涉及多模态混合(如语音、音乐与环境音同时存在)的场景中,模型表现更是大幅退化。这表明,当前方法在简单情境下具备一定能力,但距离真实复杂应用场景仍有明显差距。

△ 主要实验结果

此外,实验还揭示出若干值得关注的现象:

04

上手实践

MMAE 使用 Qwen3-Omni 作为评判模型,依据评分标准对音频编辑输出逐条打分。完整评测分三步。

步骤 1:部署 Qwen3-Omni

克隆官方仓库并按其说明配置环境:

gitclonehttps://github.com/QwenLM/Qwen3-Omni.git
cdQwen3-Omni
# 按官方 README 安装依赖

随后启动 vLLM 服务。仓库提供了参考部署脚本
launch_qwen3_omni.sh
,会在 8 块 GPU 上启动两个 Qwen3-Omni 实例(每个 tensor-parallel=4),分别监听 8001 与 8002 端口。需将脚本中的MODEL_DIR
改为本地模型权重路径。

步骤 2:准备预测结果

在 MMAE 基准输入数据(元数据)上运行你的音频编辑模型,在原始 chatml 格式的messages后追加一条assistant回复,写入输出音频路径:

{
"id":"69e897fbf1844435bec75eca",
"messages":[
{"role":"user","content":[
{"type":"text","text":"Extract the music component from the audio."},
{"type":"audio","audio_url":"wav/69e897fbf1844435bec75eca/audio1.wav"}
]},
{"role":"assistant","content":[
{"type":"audio","audio_url":"your_output_wav_path"}
]}
]
}

audio_url
可为绝对路径,或相对于预测文件目录(或--audio_root
)的相对路径。将修改后的元数据另存为 JSON,即为模型预测结果。

步骤 3:运行评估

python-m eval.score
--predictions path/to/your_predictions.json
--base_urls"http://localhost:8001/v1,http://localhost:8002/v1"
--audio_root path/to/audio_root
--output_dir outputs/your_model
--concurrency8

点击阅读原文,获取详细信息

?点击关注ModelScope公众号获取

更多技术信息~

阅读原文

喜欢(0)

上一篇

摩根士丹利:电力短缺正成为 AI 核心瓶颈

摩根士丹利:电力短缺正成为 AI 核心瓶颈

下一篇

2026年玩AI必备技能:不是提示词:是循环工程

2026年玩AI必备技能:不是提示词:是循环工程
猜你喜欢