3

预训练模型的下一步?突破Impossible Triangle

 2 years ago
source link: https://mp.weixin.qq.com/s?__biz=MjM5ODkzMzMwMQ%3D%3D&%3Bmid=2650430057&%3Bidx=2&%3Bsn=7fae049bdf6d180d9cef306ecbce8451
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
640?wx_fmt=jpeg

卷友们好,我是rumor。

昨天刷Arxiv看到一篇比较有意思的文章:

Impossible Triangle: What’s Next for Pre-trained Language Models?
https://arxiv.org/abs/2204.06130

文章只有两个作者,来自微软Azure的Cognitive Services Research Group,一作是位叫朱晨光的大佬,不查不知道,一查吓一跳,从此我又多了一位男神。

朱晨光大佬本科就读于清华姚班,据报道本科一年共发了8篇论文[1],随后就读于斯坦福,16年博士毕业后进入微软。目前已经带领着一个几人的Knowledge and Language Team了,顶会也是发到手软:

640?wx_fmt=jpeg

所以这样的大佬亲自写文章,还是值得仔细看看的。

虽然这篇文章目前只有4页,却简明地涵盖了过去的一系列工作,并给出了大佬自己对于未来发展方向的insight

Impossible Triangle

在接触了一些大佬之后,我发现他们其中一个共同的特点是能在更高维度把问题看得更清楚,并且套入到自己的思考框架里,从而清晰地找出解决思路。

在这篇文章中,晨光大佬用「不可能三角」这个经济学理论来形容预训练模型目前的窘境

640?wx_fmt=jpeg

即模型尺寸、少样本效果、精调效果三者不可兼得

目前的情况是,大部分模型只具备上述的一个或两个特性:

  • 预训练模型之所以是划时代的进展,是它具备了中等尺寸(一张卡即可精调)和全任务SOTA的精调效果
  • 而最近两年预训练模型都在往大尺寸发展,也就是具备了少样本效果,但他们的少样本效果依旧比不过中等模型的精调

虽然看到这里好像也没说啥,这就是大家都知道的事情,但巧妙的点是只用这么一个画的不是很fancy的三角,就概括了过去三年的进展。

那接下来大佬开始思考,如果要保持现有的两个角,又要往最后一个角努力,都能干啥?

  • 对于减少模型尺寸,一条典型的故事线就是蒸馏。但其中仍存在两个问题:一是学生模型很难达到原始模型的效果,二是原始的大尺寸模型的推理效率太低
  • 对于提升少样本表现,数据增强是一个好办法,比如用无监督数据做自监督训练、或者基于其他模型生成一些伪样本,但这类方法依旧受限于现有标注样本的多样性,泛化性能提升有限
  • 对于提升精调表现,最近一个比较火的故事是prompt,但这种方式对prompt的设计非常敏感,同时效果也很难超过目前的有监督SOTA

又是一些看似没说啥的话,但这三点就概括了一大堆的motivation。

最后,大佬给出了他的看法,接下来大模型怎样发展才能突破不可能三角?

他认为问题的解决会分为三个阶段:

  1. 在继续提升已有特性的同时向着另一个方向迈进
  2. 在某一个或几个NLP任务上,会出现同时具备三种特性的模型
  3. 在前两个阶段的基础上,在全任务上突破不可能三角

可以看到,目前大佬的思路就是从个别NLP任务上进行突破,这也给很多NLPer提供了一个方向,毕竟现在的文章越来越卷了,动辄几十个作者一起刷几十个任务,用LeCun的建模就是:

640?wx_fmt=jpeg

当然,不同大佬的思路也是不同的,比如Jeff Dean一直说的Pathways,也是个很好的点。

不管是往哪个方向走,今天这篇文章都给了我很大的启发,不只是说预训练模型的发展,而是怎样去更清晰地看待问题,如果这个事情让我来讲,我可能会画一个繁杂的脑图,写上一篇上万字的综述,而沉浸到细节里,就注定最后给出的insight也是细枝末节。

化繁为简,站在更抽象的层面,才能找到新坑。

[1]

朱晨光:一个从不通宵的AI研究员: https://www.163.com/dy/article/G9VB9H430511DPVD.html


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK