编程客栈() 5月23日消息:Meta 公司的人工智能研究团队今天宣布开源一个名为「Massively Multilingual Speech(大规模多语言语音)」的新项目,旨在解决创建准确可靠的语音识别模型的挑战。
图片来自Meta
(资料图片)
能够识别人类语音并清晰回应的 AI 模型具有巨大的潜力,特别是对于完全依赖语音访问获取信息的人来说。然而,训练高质量的模型通常需要大量的数据,包括数千小时的音频和对话内容的转录。对于许多语言,特别是那些较为冷门的语言,这样的数据根本不存在。
Meta 的 MMS 项目通过将一种名为 wav2vec 2.0 的自监督学习算法与一个提供ECUHiuM了超过 1,100 种语言标记数据和近 4,000 种语言无标记数据的新数据集相结合,克服了数据不足的问题。
为了解决某些语言数据缺乏的问题,Meta 的研究人员利用《圣经》这本在很多语言中已经被翻译的书籍。其翻译通常被用于基于文本的语言翻译研究,并且许多语言而且,还有人们朗读这些文本的公开可用的音频录音。
「作为这个项目的一部分,我们创建了一个包含 1,100 多种语言新约圣经的数据集,平均每种语言提供了 32 小时的数据量,」Meta 的研究人员说道。
当然,32 小时的数据量不足以训练传统的有监督语音识别模型,这就是为什么使用 wav2vec 2.0 的原因。Wav2vec 2.0 是一种自监督学习算法,使机器能够在不依赖于标记训练数据的情况下学习。
借助这种算法,可以用更少的数据训练语音识别模型。MMS 项目在 1,40ECUHiuM0 多种语言中的约 500,000 小时的语音数据上训练了多个自监督模型,然后对生成的模型进行了js特定的语音任务微调,如多语言语音识别或语言识别。
Meta 表示,生成的模型在 FLEURS 等标准评估以及与其他语音识别模型的比较中表现良好。
「我们使用了一个包含 1B 参数的 wav2vec 2.0 模型在 1,100 多种语言上训练了多语言语音识别模型,」Meta 的研究人员解释道,「随着语言数量的增加,性能确实会下降,但幅度很小,:从 61 种语言增加到 1,107 种语言,字符错误率仅android增加约 0.4%,但语言覆盖范围增加了 17 倍以上。」
在与 OpenAI LP 的 Whisper 语音识别模型进行直接比较时,Meta 的研究人员发现,使用 MMS 数据训练的模型的单词错误率大约是其一半。「这表明我们的模型在与目前最佳的语音模型相比时表现非常出色,」研究人员表示。
Meta 表示,现在他们正在分享 MMS 数据集和用于改进和训练模型的工具,以便 AI 研究界的其他人能够在此基础上进行进一步的工作。MMS 项目的目标包括扩大其覆盖范围以支持更多的语言,并改善对方言的处理,这是现有语音技术所面临的主要挑战。
「我们的目标是让人们更容易以自己偏好的语言获取信息和使用设备,」研究人员说道,「我们还设想未来的情景是,一个单一模型能够解决所有语言的多种语音任务。虽然我们训练了独立的语音识别、语音合成和语言识别模型,但我们相信将来一个单一模型将能够完成所有这些任务,带来更好的整体性能。」