28

扒出了3867篇论文中的3万个基准测试结果,他们发现追求SOTA其实没什么意义

 3 years ago
source link: https://www.jiqizhixin.com/articles/2020-08-29-3
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

FJNZfe.png!mobile

在基准数据集上比较模型性能是人工智能领域衡量和推动研究进展的重要方式之一。研究者通常基于模型在基准数据集上的一个或一组性能指标进行评估,虽然这样可以快速进行比较,但如果这些指标不能充分涵盖所有性能特征,就可能带来模型性能反映不充分的风险。

目前我们还不清楚这会在多大程度上影响当前的基准测试工作。为了解决这个问题,来自维也纳人工智能与决策研究所的研究者对过往 3867 篇论文中机器学习模型的性能指标进行了分析,所用数据均来自机器学习开放平台「Papers with Code」。

研究结果表明,目前用于评估分类 AI基准任务的绝大多数指标都有一些缺陷,无法充分反映分类器的性能,特别是用于不平衡的数据集时。

QjUJjaA.png!mobile

论文链接:https://arxiv.org/ftp/arxiv/papers/2008/2008.02577.pdf

在这次分析中,研究人员查看了 2000 年到 2020 年 6 月期间发表的 3867 篇论文中的 32209 个基准结果,这些结果来自 2298 个数据集。他们发现,这些研究总共使用了 187 个不同的 top-level 指标,其中最常用的指标是「准确率(Accuracy)」,占据基准数据集的 38%。第二和第三常见的指标是「精度(Precision)」、「相关实例在检索到的实例中的占比」和「F 值」(即精度和召回率的加权平均值)。

除此之外,就涵盖自然语言处理的论文子集而言,三个最常见的标准是 BLEU 评分(用于摘要和文本生成等)、ROUGE 评价指标(视频字幕和摘要)和 METEOR(问答)。

RJFrUrU.png!mobile

研究者表示,超过三分之二(77.2%)的已分析基准数据集中仅使用了一个性能指标,一小部分(14.4%)有两个 top-level 指标,6% 的数据集有三个指标。

论文中提到,这些指标还存在一些不合规的地方,例如将「area under the curve」简称为「AUC」。「area under the curve」是用来衡量准确率的标准,可以根据其绘制的内容分成不同的类别:如果绘制的是精度和召回率,就是 PR-AUC;如果绘制的是召回率和假阳性率,就是 ROC-AUC。

同样的,有几篇论文提到了自然语言处理的基准ROUGE,但未指出使用的是哪种变体。

除了不一致的问题,还有很多论文中使用的基准都是有问题的。准确率通常被用于评估二元和多元分类器模型,当处理不平衡的语料库,并且该语料库在每个类的实例数上存在很大差异时,就不会产生有意义的结果。例如,如果给定的「类别 A」占所有实例的 95%,那么,即使模型把所有实例都预测为「类别 A」,也还是能达到 95% 的准确率。

精度和召回率也是有局限性的,因为它们仅关注分类器预测为正(positive)的实例或者真正例(True Positives)。二者都忽略了模型精准预测负实例的能力。至于 F 分数(F-score),有时它们给精度的权重比召回率大,为偏向预测占绝对优势类别的分类器提供了具有误导性的结果。

在自然语言处理领域,研究者重点介绍了 BLEU 和 ROUGE 等基准测试的问题。BLEU 不会考虑到召回率问题,也不会与人类对机器翻译质量的判断相关联,并且 ROUGE 没有充分涵盖依赖大量 paraphrasing 的任务,比如说包含许多不同发言者的生成式摘要和抽取式摘要,像会议记录这种。

在所有分析的论文中,都没有使用更好的度量替代方法。例如 Matthews 相关系数、Fowlkes-Mallows 指数,这些度量方法能够解决准确率和 F 分数指标中的一些缺点。实际上,在 83.1% 使用了「准确率」top-level 指标的基准数据集中,没有任何其他的 top-level 指标,而在 60.9% 的数据集中,F 值是唯一的指标。自然语言处理领域的指标也是如此,被证明与人类跨任务判断强相关的 METEOR 仅使用了 13 次,用来评估生成文本与「正常」语言用法契合程度的 GLEU 仅出现了 3 次。

在论文中,研究者也提到了,分析预印本论文而不是科学期刊接收论文可能会影响到研究结论。但有一点是没有疑问的:当前用于评估 AI基准任务的大多数指标都可能存在无法充分反映分类器性能的问题,尤其是在和不平衡数据集一起使用的时候。

越来越多的学者在呼吁,应该将重点放在人工智能的科研进展上,而不是在基准上取得更好的性能。谷歌大脑团队的前成员 Denny Britz 在今年六月的一次采访中表示,追求 SOTA 不是最明智的做法,因为存在着太多令人困惑的变量,更适合像 OpenAI、DeepMind等资金雄厚的实验室去攻克。

同时,他也提到:「实验室缺乏资金也许是一件好事,这迫使研究者进行深入思考并找到成本更低且可行的替代技术。」

参考链接:https://venturebeat.com/2020/08/10/researchers-find-inconsistent-benchmarking-across-3867-ai-research-papers/


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK