卷友们好，我是rumor。

昨天刷Arxiv看到一篇比较有意思的文章：

Impossible Triangle: What’s Next for Pre-trained Language Models?
https://arxiv.org/abs/2204.06130

文章只有两个作者，来自微软Azure的Cognitive Services Research Group，一作是位叫朱晨光的大佬，不查不知道，一查吓一跳，从此我又多了一位男神。

朱晨光大佬本科就读于清华姚班，据报道本科一年共发了8篇论文[1]，随后就读于斯坦福，16年博士毕业后进入微软。目前已经带领着一个几人的Knowledge and Language Team了，顶会也是发到手软：

所以这样的大佬亲自写文章，还是值得仔细看看的。

虽然这篇文章目前只有4页，却简明地涵盖了过去的一系列工作，并给出了大佬自己对于未来发展方向的insight。

Impossible Triangle

在接触了一些大佬之后，我发现他们其中一个共同的特点是能在更高维度把问题看得更清楚，并且套入到自己的思考框架里，从而清晰地找出解决思路。

在这篇文章中，晨光大佬用「不可能三角」这个经济学理论来形容预训练模型目前的窘境：

即模型尺寸、少样本效果、精调效果三者不可兼得。

目前的情况是，大部分模型只具备上述的一个或两个特性：

虽然看到这里好像也没说啥，这就是大家都知道的事情，但巧妙的点是只用这么一个画的不是很fancy的三角，就概括了过去三年的进展。

那接下来大佬开始思考，如果要保持现有的两个角，又要往最后一个角努力，都能干啥？

对于减少模型尺寸，一条典型的故事线就是蒸馏。但其中仍存在两个问题：一是学生模型很难达到原始模型的效果，二是原始的大尺寸模型的推理效率太低
对于提升少样本表现，数据增强是一个好办法，比如用无监督数据做自监督训练、或者基于其他模型生成一些伪样本，但这类方法依旧受限于现有标注样本的多样性，泛化性能提升有限
对于提升精调表现，最近一个比较火的故事是prompt，但这种方式对prompt的设计非常敏感，同时效果也很难超过目前的有监督SOTA

又是一些看似没说啥的话，但这三点就概括了一大堆的motivation。

最后，大佬给出了他的看法，接下来大模型怎样发展才能突破不可能三角？

他认为问题的解决会分为三个阶段：

可以看到，目前大佬的思路就是从个别NLP任务上进行突破，这也给很多NLPer提供了一个方向，毕竟现在的文章越来越卷了，动辄几十个作者一起刷几十个任务，用LeCun的建模就是：

当然，不同大佬的思路也是不同的，比如Jeff Dean一直说的Pathways，也是个很好的点。

不管是往哪个方向走，今天这篇文章都给了我很大的启发，不只是说预训练模型的发展，而是怎样去更清晰地看待问题，如果这个事情让我来讲，我可能会画一个繁杂的脑图，写上一篇上万字的综述，而沉浸到细节里，就注定最后给出的insight也是细枝末节。

化繁为简，站在更抽象的层面，才能找到新坑。

[1]

朱晨光：一个从不通宵的AI研究员: https://www.163.com/dy/article/G9VB9H430511DPVD.html

预训练模型的下一步？突破Impossible Triangle