香港 5 月 29 日讯——南华早报当天报道,阿里巴巴通义实验室(Tongyi Lab)研发的语音模型 Fun-Realtime-TTS-Preview 在国际评测机构 Artificial Analysis 公布的 Speech Arena 全球榜单上以 1,190 分位列第五,超过同期上榜的 OpenAI 与 xAI 同类产品,成为全球前五中唯一一款由中国团队开发的语音系统。该模型在同步发布的词错率(Word Error Rate, WER)单项排名中以 1.8% 的成绩位列第一,特别在复杂中文方言与地区口音识别上展现技术优势,支持超过 30 种语言、7 种主要中文方言与 20 多种地区口音。
榜单细节
Artificial Analysis 是位于英国伦敦的独立 AI 评测机构,其 Speech Arena 采用真人盲测+自动评分双轨制,覆盖语音生成自然度、情感表达、跨语言切换三大维度。本次榜单前五为 ElevenLabs(1,265)、Google DeepMind(1,238)、Meta AI(1,221)、OpenAI(1,202)、阿里通义(1,190)。xAI 的 Grok Voice 排名第七。阿里在词错率维度以 1.8% 领跑,第二名 Google 为 2.3%,OpenAI 为 2.9%。
方言识别
该模型主打中文场景,支持的 7 种主要方言包括粤语、闽南语、上海话、四川话、东北话、客家话与陕西话,并兼容 20 多种二三线城市的地区口音。南华早报援引行业测评称,模型在粤语 → 普通话即时翻译的延迟控制在 280 毫秒以内,明显优于市场上同类英文为主的语音助手。这对北美粤语家庭用户和广东籍游客来说,是一个值得关注的技术跃迁。
北美对比
OpenAI 的 GPT Voice 当前在中文识别上的痛点是无法稳定区分粤语与潮汕话、东北话与北京话;ElevenLabs 虽然语音克隆质量最高,但其中文语料库以普通话为主,方言支持不足。阿里这次的突破对北美华人最直接的影响在于:未来若该模型开放 API,海外华人电商客服、社区广播、播客本地化制作的多方言场景将多一个可选项。
开源进度
南华早报报道,通义实验室计划在 6 月底前向开发者开放 Fun-Realtime-TTS-Preview 的 API 接口,月调用量 100 万次内免费,超额部分按每千次 0.6 美元计价,仅为 OpenAI Voice 同类服务(1.5 美元/千次)的 40%。阿里同时承诺该模型不收集北美用户语音数据用于训练,所有海外请求路由至新加坡数据中心。
行业影响
这是继 DeepSeek、Kimi 在大语言模型层面打破美国垄断之后,中国 AI 公司又一次在语音赛道取得国际榜单前五。Artificial Analysis 在评测说明中写道:阿里在小语种与方言长尾场景的覆盖率,是其他闭源模型短期难以追平的优势。市场普遍预计,OpenAI 与 ElevenLabs 将在 6 月底前推出中文方言强化版本回应。
关键数据速记
- 模型名称:Fun-Realtime-TTS-Preview(阿里通义实验室)
- 全球排名:Speech Arena 第 5 名,1,190 分
- 词错率:1.8%,WER 榜单第 1
- 击败对手:OpenAI、xAI
- 支持语言:30+ 语种,7 种中文方言,20+ 口音
- API 开放:预计 6 月底,100 万次/月免费额度
- 定价:超额 0.6 美元/千次(OpenAI 40%)
- 海外路由:新加坡数据中心