Meta AI 推出「全语种」语音识别系统，支持 1600+ 语言

2025 年 11 月 11 日

Meta 的基础人工智能研究（FAIR）团队开源了自动语音识别系统 Omnilingual ASR，能转录超 1600 种口语语言，基于 PyTorch 的 fairseq2 框架构建，有不同参数版本。此举旨在弥合 AI 工具语言覆盖差距，迈向「通用转录系统」目标，其中 500 种语言此前未被任何人工智能系统覆盖。测试显示，该系统对 78% 的语言实现低于 10 个字符的错误率，「资源丰富」语言准确率标准达 95% 覆盖，「低资源」语言也有 36% 达此标准。其「自带语言」选项可让系统从少量样本中学习新语言，理论上有望将覆盖范围扩展到超 5400 种语言。此外，Meta 同步发布全语言自动语音识别语料库，帮助开发者调整模型以满足本地化需求。