ICLR 2020 | ReClor: 一个需要逻辑推理的阅读理解数据集 - JOYK Joy of Geek, Geek News, Link all geek

iAbErev.jpg!web

语言预训练模型在现有流行的阅读理解数据集上取得了惊人的效果，因此，现在是时候引入更复杂的数据集来推动该领域朝着更复杂推理的方向发展了。

新加坡国立大学冯佳时团队最近在ICLR 2020 上发表的论文《ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning》，正是在这方面的工作。

文 | Weihao Yu

编 | 丛末

这篇论文引入了一个来源于标准化考试的、需要逻辑推理的阅读理解数据集（ReClor）。

如之前研究，人工标注的数据集通常包含偏差，模型往往能利用这些偏差来得到很好的效果。为了全面评估模型在ReClor数据集上的逻辑推理能力，作者将测试集中带有偏差的数据归为EASY集，其余归为HARD集。

实验结果表明当前预训练模型具有很强的捕获偏差的能力，它们在EASY集上表现优秀。然而，预训练模型在HARD集上却举步维艰，性能接近或稍高于随机猜测，这表明需要更多的工作来增强模型的逻辑推理能力。

qauemmb.png!web

论文地址： https://arxiv.org/abs/2002.04326

项目主页：http://whyu.me/reclor/

机器阅读理解（MRC）是自然语言处理中的一项基本任务，该任务需要模型根据文本和特定问题预测答案。随着NLP中无监督表示学习的成功，基于语言预训练的模型例如GPT、BERT、XLNet和RoBERTa在大多数流行的阅读理解数据集上达到了近乎饱和的性能。现在是时候以更困难的阅读理解任务来挑战当前先进模型，推动该领域朝着对文本进行更全面分析和推理的方向迈进。

在自然语言理解中，根据美国法学院录取委员会的定义，逻辑推理是对普通文本中的观点进行检查、分析和批判验证的能力。该能力是人类智能的重要组成部分，在谈判、辩论和写作等方面必不可少。然而现有的阅读理解数据集中没有或只有少量需要逻辑推理的数据，根据Sugawara & Aizawa (2016) 的统计，MCTest数据集中占比为0％，SQuAD数据集中占比为1.2％。

在NLP中，与逻辑推理相关的一个任务是自然语言推理 (Natural Language Inference)，该任务要求模型来判断两个句子之间的逻辑关系，即继承、中立和矛盾。但此任务仅考虑三种简单的逻辑关系类型，而且仅需句子级别上的推理。

为了推动模型逻辑推理能力从简单的逻辑关系分类发展到多类型复杂逻辑推理，从句子级别推理发展到段落级别推理，有必要引入针对逻辑推理的阅读理解数据集。

a6J7JnY.png!web

表1 问题译文：

背景：某司法管辖地区规定在能见度良好的情况下，汽车前灯可以选择使用。在该地区中，始终使用前灯的驾驶员相比仅在能见度较差时才使用前灯的驾驶员，发生碰撞事故的可能性小。然而，公路安全部门的记录表明，强制始终使用前灯并不能减少碰撞的总数。

问题：下列哪一项如果为真，最能解决上述信息中的明显差异？

选项：

A.在能见度较好的情况下，前灯可以选择使用的司法管辖地区中，四分之一的驾驶员在白天好天气时使用前灯。

B.在法律不强制使用前灯的情况中，只有非常小心的驾驶员使用前灯。

C.规定任何时候都必须强制使用前灯的司法管辖地区白天能见度通常很差。

D.强制始终使用前灯的法律并不难执行。

答案：B

表1给出了一个逻辑推理问题的典型示例。类似于多项选择阅读理解数据集的格式，它包含一段上下文，一道问题和四个选项，其中只有一个为正确答案。

回答此问题时，读者需要识别上下文中的逻辑关系然后理解每个选项并选择一个正确选项以解决上下文中的矛盾。人类的思维需要大量的培训和实践才能掌握复杂的推理，这需要众包工作者花费大量精力来设计此类逻辑推理问题，问题质量也难以保证。

受之前RACE等来源于标准化考试的阅读理解数据集的启发，我们通过从美国研究生管理入学考试、美国法学院入学考试等标准化考试中收集了6138道需要逻辑推理的问题，这些问题构成了一个需要逻辑推理的阅读理解数据集（ReClor）。

EFRNrqB.png!web

表 2 展示了ReClor数据集与其他类似的阅读理解数据集的对比。

与RACE数据集相比，ReCor的上下文长度要短得多。在RACE数据集中，其上下文中包含许多回答问题时无需用到的冗余句子。但在ReClor数据集中，上下文段落中的每个句子都很重要，这使此数据集专注于评估模型的逻辑推理能力，而不是从较长的上下文中搜索提取相关信息的能力。

作者分析并手动标注测试集上问题的类型，并将其归为17类，每个问题类型的占比和描述如表3所示。各题型的例子可以参见论文中的图2和附录。

a6BJNbi.png!web

人类注释的数据集通常包含偏差，经常被神经网络模型用作捷径以实现较高的测试精度，有必要分析这些偏差来帮助评价模型。在多选项阅读理解数据集中，对于一道题目，不同选项共享相同的上下文和问题，因此我们专注于正确选项和错误选项之间单词倾向和句子长度的差异。表5和图三展示了该结果。

NBRNv2E.png!web

例如表5中的motive，该单词共出现23次，虽然四个选项只有一个正确选项（25%），但该单词高达65.2%出现在正确选项中。

为了充分评价模型的逻辑推理能力，我们通过剔除上下文和问题，只将选项送入模型并利用不同随机种子训练模型。我们将测试集中能被模型仅通过选项便较为稳定预测正确的题目归为EASY集，其余归为HARD集。

rqqmiye.png!web

rEBFvaE.png!web

随后作者测试了当前先进模型在ReClor数据集上的表现，图1和表7展示了实验结果。

图1直观表明，当前预训练模型在EASY集上表现优秀，表明该类模型具有优秀的捕捉数据集偏差的能力。然而，该类模型在HARD集上却举步维艰，这表明使模型具有真正逻辑推理能力仍任重道远。

表7还展示了先在RACE数据集上微调后在ReClor微调的实验结果，模型性能均有大幅提升。该结果表明，迁移学习或许是增强逻辑推理能力的一种潜在有效的方案。

Uzuy6zu.png!web

ACL 2020原定于2020年7月5日至10日在美国华盛顿西雅图举行，因新冠肺炎疫情改为线上会议。为促进学术交流，方便国内师生提早了解自然语言处理（NLP）前沿研究，AI 科技评论将推出「ACL 实验室系列论文解读」内容，同时欢迎更多实验室参与分享，敬请期待！

点击"阅读原文"，直达“ACL 交流小组”了解更多会议信息。

ICLR 2020 | ReClor: 一个需要逻辑推理的阅读理解数据集

表1 问题译文：

问题：下列哪一项如果为真，最能解决上述信息中的明显差异？

Recommend

大规格文件的上传优化

家庭健身设备这么智能，还要私教干嘛？

iPhone 12 系列，苹果实在输不起

北邮吕廷杰：5G消息难取代微信质疑5G者是不懂 | 5G大家谈

丰巢收费是对阿里的一次叫板，但没用

入职 7 天告诉我没加班影响团队

探索云安全面临的常见威胁

Castor: A browser for the small internet (Gemini, Gopher, Finger)

Spring Boot 基础系列：实现一个自定义配置加载器（应用篇）

为什么数组要从零开始？

About Joyk