3

模型越大,表现越差?谷歌收集了让大模型折戟的任务,还打造了一个新基准

 1 year ago
source link: https://www.51cto.com/article/742039.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

模型越大,表现越差?谷歌收集了让大模型折戟的任务,还打造了一个新基准

作者:机器之心 2022-12-12 10:35:00
语言模型越大,性能越好,这一点已经在很多任务中被证明是正确的。那是否存在一种情况:某些任务的结果会因模型规模的增加反而变得糟糕?谷歌最近发表的一篇论文或许能为我们提供答案。

随着语言模型变得越来越大(参数数量、使用的计算量和数据集大小都变大),它们的表现似乎也原来越好,这被称为自然语言的 Scaling Law。这一点已经在很多任务中被证明是正确的。

或许,也存在某些任务的结果会因模型规模的增加反而变得糟糕。这类任务被称为 Inverse Scaling,它们可以指示出训练数据或优化目标是否存在某种缺陷。

今年,纽约大学的几位研究者组织了一项较为另类的竞赛:寻找一些大模型不擅长的任务。在这些任务上,语言模型越大,性能反而越差。

为了鼓励大家参与识别 Inverse Scaling 任务,他们创立了 Inverse Scaling 奖,获奖的投稿任务将从 25 万美元的奖金池中获得奖励。发布该奖的专家会根据一系列标准对提交的内容进行评价:标准包括 Inverse Scaling 的强度、任务重要性、新颖性、任务覆盖率、可再现性和 Inverse Scaling 的通用性。

比赛共有两轮,第一轮截止时间是 2022 年 8 月 27 日,第二轮截止时间是 2022 年 10 月 27 日。两轮中的第一轮收到了 43 份提交,其中四项任务被授予三等奖,它们将被纳入最终的 Inverse Scaling 基准。

相关的研究成果,被谷歌的几位研究者总结在了一篇论文里:

图片

论文链接:https://arxiv.org/pdf/2211.02011.pdf

这四项任务的 Inverse Scaling 应用在了三个语言模型,模型的参数跨越三个量级:Gopher(42M–280B)、Chinchilla(400M–70B)和 Anthropic internal model(13M–52B)。获得 Inverse Scaling 奖励的任务是 Negation QA、Hindsight Neglect、Quote Repetition 和 Redefine Math。相关任务示例如图 1 所示。

图片

在论文中,作者对这四个任务的缩放表现进行了详细研究。

作者首先在 PaLM-540B 模型上进行评估,该模型的计算量是 Inverse Scaling 奖提交文件中的评估模型的 5 倍。有了 PaLM-540B 的对比,作者发现,四个任务中有三个表现出称之为 U 型缩放的特性:性能先是随着模型规模增大降到一定程度,然后随着模型的增大性能再次上升。

作者认为,当一项任务同时包含「true task」和「distractor task」时,会出现 U 型缩放。中等模型可能会执行「distractor task」,从而影响性能,而更大的模型可能会忽略「distractor task」并且能执行「true task」。作者对 U 型缩放的发现与 BIG-Bench 任务(如 TruthfulQA、识别数学定理)的结果一致。U 型缩放的含义是,Inverse Scaling 曲线可能不适用于更大的模型,因为性能可能会继续下降,也可能会开始上升。

接着,作者探索了 chain-of-thought(CoT)的 prompt 是否改变了这些任务的缩放。与不使用 CoT 的 prompt 相比,使用 CoT 的 prompt 会激励模型将任务分解为多个中间步骤。作者的实验表明,使用 CoT 让三个 U 型缩放任务中的两个变为了 Positive Scaling 曲线,其余任务从 Inverse Scaling 变成 Positive Scaling。使用 CoT 的 prompt 时,大型模型甚至在 Redefine Math. 中的两个任务和八个子任务中的七个任务上实现了 100% 的准确率。

结果表明,「Inverse Scaling」这一术语其实并不明确,因为对于一个 prompt,给定的任务可能是 Inverse Scaling,但对于不同的 prompt ,则可能是 Positive Scaling 也可能是 U 型缩放。

U-shaped scaling 

在这一部分,作者分别使用原始论文中提出的 8B、62B 和 540B 的 Palm 模型,评估了 Palm 模型在四个 Inverse Scaling 奖的任务上的表现,还包括 40B tokens 训练得到的 1B 模型(其计算量约为 0.2 zettaFLOP)。单个 Palm-540B 的参数大约是 Inverse Scaling 奖中评估的最大模型 (Gopher-280B) 的两倍,计算量约为 2.5K zettaFLOP,而 Chinchilla-70B 的计算量仅有 560 zettaFLOP。

作者在遵循 Inverse Scaling 奖的默认设置之外,也做了小的修改,比如使用 free-form generation(其后紧接着是精确的字符串匹配,而非排名分类),后者比较了 Prompt 的两个可能延续的概率。作者同时对 Prompt 进行了小的修改以适应 free-form generation,即所有 Prompt 都至少是单次的,输入 prompt 中提供了答案选项,prompt 让模型输出「the answer is」。

具体形式如图 1 所示。作者认为这是合理的,因为这种形式与最近研究 prompt 的工作是一致的,之前评估的模型和 PaLM 8B/62B 之间的经验表现相似(作者在本文中使用的所有 prompt 都是可用的。)

图 2 展示了 Palm、Anthropic、Gopher、Chinchilla 在四个任务上的结果:

图片
  • 在 Negation QA 任务上,Palm-62B 的准确率同 Palm-8B 模型相比大幅下降,而 Palm-540B 模型的准确率又有所提高;
  • 在 Hindsight Neglect 任务上,Palm-8B 和 Palm-62B 的准确率下降到远低于随机数的水平,但 Palm-540B 的准确率却达到了 100%;
  • 在 Quote Repetition 任务上,准确率从 Palm-8B 的 86% 下降到 Palm-62B 的 81%,但 Palm-540B 的准确率却达到了 100%。事实上,在 Quote Repetition 任务中,Gopher 和 Chinchilla 模型已经显示出 U 型缩放的迹象。

这四项任务中的例外是 Redefine Math,因为即使是 Palm-540B,它也没有显示任何 U 型缩放的迹象。因此,对于目前存在的大模型,还不清楚这项任务是否会变成 U 型缩放。或者它是否真的会是 Inverse Scaling 呢?

对于 U 型缩放的一个问题是:为什么性能会先下降后又上升?

作者给出一个推测假设:即每个 Inverse Scaling 奖中的任务可以分解为两个任务 (1)「true task」和(2)影响性能的「distractor task」。由于小模型不能完成这两个任务,只能达到随机准确度附近的性能。中等模型可能会执行「distractor task」,这会导致性能下降。大型模型能够忽略分「distractor task」,执行「true task」让性能的提高,并有可能解决任务。

图 5 展示了潜在的「distractor task」。虽然可以仅在「distractor task」上测试模型的性能,但这是一个不完美的消融实验,因为「distractor task」和「true task」不仅可能相互竞争,而且可能对性能产生联合影响。接下来作者进一步解释为什么会出现 U 型缩放以及未来需做的工作。

图片

CoT prompt 对 Inverse Scaling 的影响

接下来,作者探索了使用不同类型 prompt 时,Inverse Scaling 奖的 4 个任务的缩放是如何变化的。虽然 Inverse Scaling 奖的发起者使用了基本的 prompt 策略,即在指令中包括少样本, chain-of-thought(CoT)激励模型在给出最终答案之前输出中间步骤,这可以在多步骤推理任务中大幅提高性能。即没有 CoT 的 prompt 是模型能力的下限。对于某些任务,CoT 的 prompt 能更好代表模型的最佳性能。

图 3 的上半部分是 CoT 的 prompt 示例,下半部分是 Negation QA、Hindsight Neglect、Quote Repetition 在有 CoT 的 prompt 情况下的表现。

对于 Negation QA 和 Hindsight Neglect,CoT 的 prompt 使缩放曲线从 U 型变为正向的。对于 Quote Repetition,CoT 的 prompt 仍呈显 U 型曲线,尽管 Palm-8B 和 Palm-62B 的性能明显更好,并且 Palm-540B 准确率达到 100%。

图片

图 4 展示了 Redefine Math 在有 CoT 的 prompt 情况下的结果。该任务实际上由 8 个子任务组成,每个子任务都有不同的指令,因此作者还按子任务对性能进行了划分,以探索子任务是否具有相同的缩放行为。总之,CoT 的 prompt 对所有子任务都显示出 Positive Scaling,8 个子任务中有 7 个在 Palm-62B 和 Palm-540B 模型上实现了 100% 的准确率。但是对于「+ as digit」和「+ as random number」子任务,就算使用 Palm-540B,也显示出明显的 Inverse Scaling 曲线。

图片

综上所述,所有被研究的任务和子任务,在使用 CoT 的 prompt 时都呈现出 U 型缩放或 Positive Scaling。这并不意味着 no-CoT 的 prompt 结果是无效的,相反它通过强调任务的缩放曲线如何根据使用的 prompt 类型而不同,提供了额外的细微差别。即同一任务对于一种类型的 prompt 可以具有 Inverse Scaling 曲线,而对于另一种类型的 prompt 就可能具有 U 型缩放或 Positive Scaling。因此「inverse scaling task」这一术语没有明确的定义。

责任编辑:张燕妮 来源: 机器之心

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK