阿里通义语音模型杀进全球前五中文方言识别率压过OpenAI

香港 5 月 29 日讯——南华早报当天报道，阿里巴巴通义实验室（Tongyi Lab）研发的语音模型 Fun-Realtime-TTS-Preview 在国际评测机构 Artificial Analysis 公布的 Speech Arena 全球榜单上以 1,190 分位列第五，超过同期上榜的 OpenAI 与 xAI 同类产品，成为全球前五中唯一一款由中国团队开发的语音系统。该模型在同步发布的词错率（Word Error Rate, WER）单项排名中以 1.8% 的成绩位列第一，特别在复杂中文方言与地区口音识别上展现技术优势，支持超过 30 种语言、7 种主要中文方言与 20 多种地区口音。

榜单细节

Artificial Analysis 是位于英国伦敦的独立 AI 评测机构，其 Speech Arena 采用真人盲测+自动评分双轨制，覆盖语音生成自然度、情感表达、跨语言切换三大维度。本次榜单前五为 ElevenLabs（1,265）、Google DeepMind（1,238）、Meta AI（1,221）、OpenAI（1,202）、阿里通义（1,190）。xAI 的 Grok Voice 排名第七。阿里在词错率维度以 1.8% 领跑，第二名 Google 为 2.3%，OpenAI 为 2.9%。

方言识别

该模型主打中文场景，支持的 7 种主要方言包括粤语、闽南语、上海话、四川话、东北话、客家话与陕西话，并兼容 20 多种二三线城市的地区口音。南华早报援引行业测评称，模型在粤语 → 普通话即时翻译的延迟控制在 280 毫秒以内，明显优于市场上同类英文为主的语音助手。这对北美粤语家庭用户和广东籍游客来说，是一个值得关注的技术跃迁。

北美对比

OpenAI 的 GPT Voice 当前在中文识别上的痛点是无法稳定区分粤语与潮汕话、东北话与北京话；ElevenLabs 虽然语音克隆质量最高，但其中文语料库以普通话为主，方言支持不足。阿里这次的突破对北美华人最直接的影响在于：未来若该模型开放 API，海外华人电商客服、社区广播、播客本地化制作的多方言场景将多一个可选项。

开源进度

南华早报报道，通义实验室计划在 6 月底前向开发者开放 Fun-Realtime-TTS-Preview 的 API 接口，月调用量 100 万次内免费，超额部分按每千次 0.6 美元计价，仅为 OpenAI Voice 同类服务（1.5 美元/千次）的 40%。阿里同时承诺该模型不收集北美用户语音数据用于训练，所有海外请求路由至新加坡数据中心。

行业影响

这是继 DeepSeek、Kimi 在大语言模型层面打破美国垄断之后，中国 AI 公司又一次在语音赛道取得国际榜单前五。Artificial Analysis 在评测说明中写道：阿里在小语种与方言长尾场景的覆盖率，是其他闭源模型短期难以追平的优势。市场普遍预计，OpenAI 与 ElevenLabs 将在 6 月底前推出中文方言强化版本回应。

关键数据速记

模型名称：Fun-Realtime-TTS-Preview（阿里通义实验室）
全球排名：Speech Arena 第 5 名，1,190 分
词错率：1.8%，WER 榜单第 1
击败对手：OpenAI、xAI
支持语言：30+ 语种，7 种中文方言，20+ 口音
API 开放：预计 6 月底，100 万次/月免费额度
定价：超额 0.6 美元/千次（OpenAI 40%）
海外路由：新加坡数据中心