1

Meta 开源首个 AI 语音翻译系统,闽南话和英语可以直接语音互译!

 1 year ago
source link: https://www.51cto.com/article/721027.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

Meta 开源首个 AI 语音翻译系统,闽南话和英语可以直接语音互译!

作者:李梅 2022-10-21 09:29:37
这是由 Meta 开源的第一个由 AI 驱动的非书面的、语音到语音的翻译系统。

机器翻译是现今人类消除语言障碍、重建巴别塔的新工具。然而,在世界现存的 7000 多种已知语言中,许多低资源语言还未得到足够的关注,尤其是有近一半的语言没有标准的书面系统,这是构建机器翻译工具的一大障碍,所以目前 AI 翻译主要集中在书面语言上。

在利用 AI 推动自然语言翻译这件事上,Meta 一直致力于“No Language Left Behind”(没有一种语言被落下)的目标。

比如汉语方言之一闽南话,现在也有了专属的机器翻译系统,讲闽南话的人可以与讲英语的人进行无障碍对话了。

这是由 Meta 开源的第一个由 AI 驱动的非书面的、语音到语音的翻译系统。来听听这项工作的负责人、Meta AI 研究员 Peng-Jen Chen 与小扎的对话,Chen 出生于中国台湾。

该系统可以将闽南话的语音翻译成英语语音,反之亦可。会讲闽南话的读者可以来检验一下,是不是翻译效果还挺不错?

据了解,这个开源翻译系统是 Meta 的通用语音翻译(UST) 项目的一部分,该项目致力于开发新的人工智能方法,帮助实现所有现存语言的实时语音到语音的翻译。目前,Meta 已经开源了该翻译模型和评估数据集,研究论文如下:

图片

论文地址:https://research.facebook.com/file/799432337944526/Speech-to-speech-translation-for-a-real-world-unwritten-language.pdf

1 克服训练数据的挑战

闽南话是汉语方言之一,是一种低资源语言,没有标准的书写系统,人工的英语到闽南话翻译人员也相对很少,所以为模型收集和标注训练数据就变得更加困难。

图片

图注:讲闽南话(Hokkien)的人的数量

为此,来自 Meta AI 的研究团队采用了一种特殊放方案,利用汉语普通话(属于高资源语言)作为中间语言来构建伪标签和人工翻译。他们首先将英语(或闽南话)语音翻译成普通话文本,然后再翻译成闽南话(或英语)并将其添加到训练数据中。这种方法通过利用来自类似高资源语言的数据,极大地提高了模型性能。

语音挖掘是训练数据生成的另一种方法。使用预训练的语音编码器,能够将闽南话语音嵌入编码到与其他语言相同的语义空间中,所以闽南话没有书面形式也不造成问题。闽南话语音可以与语义嵌入相似的英语语音和文本对齐,然后从文本中合成英语语音,产生并行的闽南话和英语语音。

图片

图注:无需人类标注的语音翻译模型

2 新的建模方法:语音到语音

许多语音翻译系统都依赖转录或者是语音到文本的系统。但是,闽南话的形式主要是口语,缺乏标准的书面文字系统,无法转录成文本作。所以,Meta 所构建的是一个语音到语音的翻译系统。

研究人员使用语音到单元(speech-to-unit,S2UT)翻译,将输入语音直接翻译成一系列的声学单元,这也是 Meta 先前最早开创的一种路径。然后,从这些声学单元中生成波形。此外,研究人员还采用了 UnitY 作为双通道解码机制,第一通道解码器生成相关语言(即汉语普通话)的文本,第二通道解码器创建单元。

图片

图注:UnitY 模型架构

3 新的准确性评估系统

语音翻译系统的评估工具通常是 ASR-BLEU 指标,该指标首先使用自动语音识别 (ASR) 将翻译后的语音转录为文本,然后将转录文本与人工翻译的文本进行比较,计算 BLEU 分数。

但要评估闽南话的语音翻译系统,难处还是在于它没有标准的书面文字系统。所以,为了实现自动评估,研究人员开发了一个系统,将闽南语语音转录为一种称为 Tâi-lô 的标准化注音符号。这样就能在音节的层面上计算 BLEU 分数,从而比较不同方法的翻译质量。

除了开发这种评估闽-英语音翻译的方法外,研究人员还基于闽南话语料库 Taiwanese Across Taiwan,创建了第一个闽-英双向语音到语音翻译基准数据集。该基准数据集将开源,以方便更多研究人员从事闽南话语音翻译工作。

4 不止闽南话

这项工作所用技术可以进一步扩展到许多其他书面和非书面语言。

为此,Meta 还发布了  SpeechMatrix,它是一个大型的语音到语音翻译语料库,使用了 Meta 的创新数据挖掘技术 LASER, 从欧洲议会录音的真实演讲中挖掘数据。该数据库包含 136 种语言对的语音对齐,共 41.8 万小时的语音。挖掘的数据和模型都是免费的,研究人员可以创建自己的语音到语音翻译 (S2ST) 系统。

图片

图注:LASER 挖掘获得的语音到语音成对数据

Meta 在无监督语音识别 ( wav2vec-U ) 和无监督机器翻译( mBART )方面的研究进展,也为口语翻译工作提供了支持。比如用于预训练语音模型的无监督域自适应技术,提高了下游无监督语音识别的性能,尤其是对于低资源语言,在没有任何人工标注的情况下,可以构建高质量语音到语音翻译模型。

该模型仍在不断推进中,目前一次只能翻译一个完整的句子,但这迈出了未来实现语言间同声传译的一步。

据 Meta AI 的研究员 Peng-Jen Chen 说,这个闽南话翻译系统其实有一部分是出于他的一个私人心愿。他在中国台湾长大,同时会讲普通话,但是他的父亲普通话不好,他希望他的父亲能够用闽南话与每个人都顺畅地交流。这也是 AI 之于人类的意义之一。

责任编辑:张燕妮 来源: AI科技评论

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK