m4 - daiwk-github博客 - JOYK Joy of Geek, Geek News, Link all geek

m4 - daiwk-github博客To Top 首页 > 自然语言处理 > 正文

在这篇论文和后续几篇论文中，谷歌的研究者们在超过 250 亿的句子对上训练了一个 NMT 模型，这些句子是 100 多种语言与英语的互译，参数量超过 500 亿。他们得到了一种大规模多语言、大规模神经机器翻译方法 M4，在数据丰富和匮乏的语言中都实现了显著的性能提升，可以轻松适应单个领域/语言，同时能够有效应用于跨语言下游迁移任务。

EMNLP2019上，Investigating Multilingual NMT Representations at Scale，谷歌的研究者比较了多语言模型在多种语言中的表征能力。他们发现，多语言模型无需外部限制就能学习在语言学上相似的语言的共享表征，验证了长期以来利用这些相似性的直觉和实验结果。

Evaluating the Cross-Lingual Effectiveness of Massively Multilingual Neural Machine Translation中，研究者进一步证明了这些学习到的表征在下游任务中跨语言迁移的有效性。

构建大规模神经网络

在增加数据匮乏的语种数量之后，数据丰富的语种翻译质量开始下降。这种下降在多任务设置中可以被观察到，由任务间的竞争和迁移的单向性引起（即从数据丰富的语言到数据匮乏的语言）。研究人员探索了能够更好地学习和实现能力控制的算法，以此来解决这种负迁移问题。在此过程中，他们还通过增加神经网络模型的参数量来提高其表征能力，以此来提高数据丰富语言的翻译质量。

提高神经网络的能力还有其他几种方法，包括添加层数、增加隐藏表征的宽度等。为了训练更深的翻译模型，研究者利用 GPipe 来训练 128 层、参数超过 60 亿的 Transformer。模型能力的提高使得所有语言的翻译质量都得到了显著提升，BLEU 分数平均提高了 5 分。他们还研究了深度网络的其他性质，包括深度-宽度权衡、可训练性难题以及将 transformer 扩展到 1500 多层、840 亿参数的设计选择等。

尽管扩展深度是提高模型能力的一种方法，探索能够利用问题多任务特性的架构也是一种非常可行的补充方法。研究者通过用稀疏门控专家混合层（sparsely-gated mixture of experts）替代原始的前馈层修改 transformer 的架构，显著提高了模型能力，使得我们可以成功地训练和传递 500 亿参数，从而进一步提高了翻译质量。

m4 - daiwk-github博客

Recommend

nlp+gnn

MLIR - daiwk-github博客

hichnet - daiwk-github博客

cortex - daiwk-github博客

Cloudflare achieves key cloud computing certifications — and there’s more to com...

How can I get past the frp lock on my gram's old j3?

VSCodium – Free/Libre Open Source Software Binaries of VS Code

has_secure_password

CoinGeek Bitcade makes its way to Warsaw

记忆：你和时间的总和｜Why there’ll be False Memories?

About Joyk