阿里语音大模型登顶全球评测，听准、听懂、会聊三项能力全面

2026-05-21 0

2026年5月21日，阿里巴巴推出的语音大模型Fun-Realtime-ASR与Fun-Realtime-AudioChat在全球权威人工智能评估平台Artificial Analysis综合评测中位居榜首，整体表现超越GPT-Realtime-2等国际主流语音模型，在“听准”“听懂”“会聊”三项核心能力上均取得第一名。

其中，“听准”能力以词错误率（WER）为衡量标准，数值越低代表语音转写越准确。Fun-Realtime-ASR的词错误率为1.8%，即每识别100个词，出错不足2个字。该模型响应延迟控制在毫秒级，支持三十多种语言及七大中文方言体系，可精准适配二十多个地区不同口音，并提供面向企业客户的定制化接口，已在金融、医疗等专业领域完成深度适配与落地应用。

“听懂”能力聚焦语音推理水平，即对语义、逻辑关系及深层意图的理解能力。Fun-Realtime-AudioChat在此项指标中获得97.6%的高分，表明其可在语音输入阶段高效完成意图识别、情感判断、多步逻辑推演等复杂认知任务，真正实现从声音信号到智能理解的端到端跃迁。

“会聊”能力通过对话动态性（Conversational Dynamics）进行评估，关注模型在真实交互场景中的自然度与应变力——包括不打断用户发言、被中途打断后迅速恢复上下文、及时响应关键节点等。Fun-Realtime-AudioChat在此项获得97.8%的得分，反映出其在复杂对话流中已具备接近人类水平的节奏把控与交互连贯性。

目前，阿里语音大模型系列已全面融入千问App、高德地图、钉钉等主流应用，为用户提供实时语音转文字、智能导航语音交互、会议语音记录与纪要自动生成等服务，成为新一代人机语音交互的重要技术支撑。

喜欢(0)

618大促狂欢！耕升RTX50系显卡选购攻略来了！

“欧洲尚未认清潜在风险”：法国电信巨头高管警示美国垄断卫星与人工智能领域