27

GLUE基准新突破:微软多任务模型首次超越自然语言人类基准

 4 years ago
source link: https://www.tuicool.com/articles/fEvEvuj
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

通用语言理解评估基准(GLUE)是用于评估和分析多种已有自然语言理解任务的模型性能的工具,模型基于在所有任务的平均准确率进行评估。WNLI(Winograd 自然语言推理)数据集是是 GLUE 中的一个数据集,它是来自(Levesque et al., 2011)的小型自然语言推理数据集。

根据 GLUE 排行榜,大部分系统在 WNLI 上取得的准确率为 65% 左右,直到最近这一数字才有了突破性进展。6 月 5 号王玮提交的 ALICE large ensemble (Alibaba DAMO NLP) 系统在 WNLI 上取得了 80.8% 的准确率,6 月 7 号微软提交的

MT-DNN-ensemble 系统在 WNLI 上取得了 89.0% 的准确率,仅次于人类性能 95.9%。

muUj22R.jpg!web

当前 GLUE 排行榜(2019.06.10),微软MT-DNN-ensemble 系统在 WNLI 实现了 89.0% 的准确率,接近人类水平;在 GLUE基准上的平均得分为 87.2,比人类得分高出 0.1。

此前,机器之心曾报道过微软提出的新型 NLP 预训练模型打破了 BERT 在 GLUE基准11 项任务中的性能记录。当时微软模型在 WNLI 上的准确率仅为 65.1%。短短半年过去,微软MT-DNN-ensemble 模型已将这一数字提升了将近 24%,实现了性能飞跃。

j2yeiuv.jpg!web

2018 年 12 月 23 日 GLUE 排行榜,目前的MT-DNN(平均分 85.1)相比第一版(平均分 81.9)已经有了很大的提升。

模型细节

根据模型描述,微软新模型MT-DNN-ensemble 是一个用于联合训练所有任务的新型多任务框架,所有任务共享同样的结构,除了每项任务的目标函数不同。

从模型的命名可以看出来,MT-DNN-ensemble 就是MT-DNN的多模型集成。虽然 GLUE 描述页面写的MT-DNN-ensemble 的参数量为 3.5 亿,与MT-DNN一样,但可能实际参数量要远远大于它。

BFjqmmV.jpg!web

MT-DNN-ensemble 地址:https://github.com/namisan/mt-dnn

关于MT-DNN

目前,我们尚不知道MT-DNN-ensemble 模型如何在 WNLI 实现如此巨大的性能飞跃。但根据 GitHub 项目,该新模型同样借鉴了论文《Multi-Task Deep Neural Networks for Natural Language Understanding》。

MT-DNN模型的架构如下图所示。下面几层在所有的任务中共享,上面的几层表示特定任务输出。

单词序列(可以是一句话或者打包在一起的句子对)作为输入 X,先表示为一个嵌入向量序列,其中 l_1 中一个向量对应一个单词。然后 Transformer 编码器通过自注意机制捕捉每个单词的语境信息,在 l_2 中生成语境嵌入序列。这就是我们的多任务目标函数训练得到的共享语义表征。

bmqii2f.jpg!web

表征学习MT-DNN模型的架构。下面的网络层在所有任务中都共享,上面的两层是针对特定任务。输入 X(一句话或句子对)首先表征为一个序列的嵌入向量,在 l_1 中每个词对应一个向量。然后 Transformer 编码器捕捉每个单词的语境信息并在 l_2 中生成共享的语境嵌入向量。最后,针对每个任务,特定任务层生成特定任务的表征,而后是分类、相似性打分、关联排序等必需的操作。

如图所示,较低层(即文本编码层)在所有任务中共享,而顶层是任务特定的,组合不同类型的 NLU 任务,如单句分类、成对文本分类、文本相似性和相关性排序。与 BERT 模型类似,MT-DNN分两个阶段进行训练:预训练和微调。与 BERT 不同的是,MT-DNN在微调阶段使用 MTL,在其模型架构中具有多个任务特定层。

在多任务精调阶段,我们使用基于 minibatch 的随机梯度下降(SGD)来学习模型参数(也就是,所有共享层和任务特定层的参数),如下图算法 1 所示。

RVfUnqi.jpg!web


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK