清华NLP组论文清单：全方位覆盖自然语言处理12大领域

为响应新型冠状病毒疫情期间“老实呆在家，就是对社会最大的贡献”的号召，大家度过了出生以来最特殊的春节假期。长时间被圈在家中，大家不免怀念以往自由自在上班、上课的忙碌生活。大家或许开始尝试多方面的生活，有人开始学习做饭，有人趁机刷剧刷综艺。

为了实现“疫情防控不松懈，学习科研不停步”，清华大学自然语言处理实验室的同学们整理了 自然语言处理中 12 个领域的论文清单 ，希望能够给大家的闭关科研带来一些灵感。

列表预览

Poetry Generation
Text Generation
Machine Translation
Pre-trained Language Models
Textual Adversarial Attack and Defense
Sememe Computation
Network Representation Learning
Neural Relation Extraction
Machine Reading Comprehension
Knowledge Representation Learning
Graph Neural Network
Legal Intelligence

zEBVJbz.png!web

#Poetry Generation

UV3EVf2.jpg!web

@整理者：矣晓沅

此份清单整理了 人工智能与诗歌交叉领域 的相关论文列表。近年来AI和文学艺术不断交融，产生了很多有趣的研究方向，如自动绘画生成、诗歌生成、音乐生成、小说生成等。这些研究在学术界和普通人群中都引起了热烈的讨论，并且具有娱乐、教育、辅助文艺研究等广泛的应用价值。

此清单列出了针对诗歌这一文学体裁的相关论文，包括：1.中文古典诗歌(绝句、宋词等)生成，2.中文对联生成，3.中文现代诗生成，4.外文诗生成，5.多模态诗歌生成, 6.诗歌自动分析, 7.诗歌自动翻译, 8. Demo 及 Survey 等部分。每篇论文都附有下载链接，部分论文也附上了作者公开的源码和数据链接。此清单在不断更新中，力求为读者提供该领域较为全面和最新的研究方法与趋势。

* 清单链接：https://github.com/THUNLP-AIPoet/PaperList

MjqI3mA.png!web

#Text Generation

IriARvQ.jpg!web

@整理者：陈刚

这份清单整理了一份 文本生成 相关的论文列表。该阅读清单主要包含了当前文本生成方向的一些前沿工作。根据这些工作所基于的整体框架，大致将文章分为几个大类，包括基于序列到序列的方法、基于变分自编码器的方法、基于对抗网络的方法、基于强化学习的方法以及利用知识的生成方法共 5 类。

此外，这份清单还列举了一些文本风格转换研究方向的相关论文。在这份清单还包含了部分公开的数据集和源代码，以方便读者的阅读和研究使用。

* 清单链接：https://github.com/THUNLP-MT/TG-Reading-List

7zyQNzY.png!web

#Machine Translation

v6zQRja.jpg!web

@整理者：杨宗瀚

这份清单整理了一份 机器翻译 相关论文列表。该阅读清单里回顾了统计机器翻译（SMT）时代的亮点论文，并概括了近期神经机器翻译（NMT）方向下的各个子领域，其中包括：

模型架构、注意力机制、开放词表问题与字符级别神经机器翻译、训练准则与框架、解码机制、低资源语言翻译、多语言机器翻译、先验知识融合、文档级别机器翻译、机器翻译中的鲁棒性、可视化与可解释性、公正性与多样性、机器翻译效率问题、语音翻译与同传翻译、多模态翻译、预训练方法、领域适配问题、质量估计、交互式机器翻译、自动后处理、双语词典推导以及诗歌翻译。

此外，我们还在清单中整理了近年历届世界机器翻译大赛（WMT）的优胜情况，总结出实用的技巧供大家参考。

* 清单链接：https://github.com/THUNLP-MT/MT-Reading-List

JVraUrV.png!web

#Pre-trained Language Models

ymI7Fru.jpg!web

@整理者：张正彦、王晓智

该份清单整理了一份 预训练语言模型 相关论文列表。自 BERT 模型之后，预训练语言模型的强大文本建模能力引发了学术界的广泛关注。该阅读清单首先对于预训练语言模型的发展脉络进行了梳理，以树状图的形式展现了该领域几篇经典工作之间的关联，其中包括：多语言预训练、多任务预训练、基于生成模型的预训练、结合知识预训练、跨模态预训练等。

与此同时，我们概括出三个当前预训练研究的主要方向，并列出每个方向中的重要论文：首先是对于预训练模型和训练方法进行创新，目标是得到更好的预训练模型，在下游任务取得更好的效果；其次是考虑到预训练语言模型的计算量较大，使用知识蒸馏或者模型压缩的技术去减小预训练模型的计算开销；最后是对于预训练模型进行分析，探索预训练当中学习到的语言知识，帮助人们更深入地理解预训练语言模型。

* 清单链接：https://github.com/thunlp/PLMpapers

aU3ua2R.png!web

#Textual Adversarial Attack and Defense

qyAJfef.jpg!web

@整理者：岂凡超、杨承昊、臧原

这份清单列出了 文本对抗攻击和防御 的所有论文。文本对抗攻击旨在对输入数据进行轻微扰动而使得机器学习模型产生错误的输出，而对抗防御则旨在提高模型的鲁棒性以抵御这样的攻击。机器学习模型，尤其是深度学习模型，已被发现对输入十分敏感，而随着这些模型在现实应用中大规模部署，其安全性也越来越受到人们的关注，因此，对抗攻击和防御相关的研究也越来越多。

这份清单包括四个部分，第一部分列出了文本对抗攻防领域的综述文章；第二部分主要为文本对抗攻击方面的论文，根据攻击模型产生扰动的类别细分成 4 类；第三部分为文本对抗防御相关的论文；第四部分为其他文本对抗攻防相关的论文。

* 清单链接：https://github.com/thunlp/TAADpapers

FZZniqE.png!web

#Sememe Computation

fQJZRbY.jpg!web

@整理者：岂凡超

这份清单列出了 义原计算 相关的所有论文。义原是语言学中最小的语义单位，有语言学家认为所有词语的意思都可以用一个有限的义原集合的组合来表达。

知网（HowNet）是最著名的义原知识库，它使用 2000 多个预定义的义原标注了十几万中英文词语。HowNet 作为一种特殊的知识库，其自诞生以来，已经被广泛用于各种自然语言处理任务。另一方面，为了适应需要，HowNet 需要不断扩充新词。考虑到人工为新词标注义原费时费力，有一些工作尝试使用机器学习的方法自动为新词乃至其他语言的词语预测义原，进而扩充 HowNet。

因此，这份清单主要包括三个部分：（1）HowNet 和义原的介绍；（2）HowNet 的应用；（3）HowNet 的自动扩充。

* 清单链接：https://github.com/thunlp/SCPapers

eMraQfa.png!web

#Network Representation Learning

NjieMve.jpg!web

@整理者：涂存超、姚远、张正彦、崔淦渠、周界、杨成

这份清单列出了 网络表示学习领域 近年来的经典论文。网络表示学习旨在用向量表示将图的拓扑结构信息进行编码，自 14 年 DeepWalk 的提出以来受到了非常广泛的关注。

列表第一部分列出了网络表示领域的综述文章，为读者提供了总览式的领域了解与入门。第二部分根据图结构的类型分门别类地进行介绍，具体类型包括：普通图、属性图、动态图、异质图、二分图、有向图等。第三部分则介绍了网络表示学习技术的一系列应用，包括自然语言处理、知识图谱、社交网络、图聚类、社区发现、推荐系统等任务。欢迎广大读者为论文列表的更新提出意见与建议。

* 清单链接：https://github.com/thunlp/NRLPapers

3If6JrF.png!web

#Neural Relation Extraction

nMZVRfA.jpg!web

@整理者：高天宇、韩旭

此份清单整理了与 关系抽取 有关的综述、数据集与论文。其覆盖了从模版匹配、统计方法到神经网络的关系抽取模型，并着重列举了近年来基于神经网络的各类关系抽取的工作。

该列表包括了大量利用不同网络结构解决经典句级别有监督关系抽取的论文，从递归神经网络、CNN、RNN、GNN 等相关模型，到利用语法树结构的工作，再到最近采用 Transformer 或 BERT 达到 SOTA 的模型。

除此之外，列表中还囊括了许多关系抽取的前沿方向，包括远程监督，少次学习，文档级别关系抽取，开放关系抽取等等。随着领域的快速发展，列表还将保持及时更新，欢迎广大读者为论文列表的更新提出意见与建议。

* 清单链接：https://github.com/thunlp/NREPapers

BryAz23.png!web

#Machine Reading Comprehension

UJBNFr2.jpg!web

@整理者：林衍凯、 叶德铭、计昊哲

此份清单整理了与 机器阅读理解 有关的数据集与论文。机器阅读理解是一个近年来受到非常广泛关注的领域，旨在让机器理解并回答用户提出的问题。从主流的学术研究和业界应用的角度，我们更加关注抽取式阅读理解，是指给定文章 P 和问题 Q，我们希望从 P 当中抽取出答案 A，并且通常答案 A 是文章 P 当中的一个或者多个连续片段。

这份列表主要包括五个部分：第一部分列出了机器阅读理解模型的相关论文，让读者可以快速地了解其具体做法；第二部分介绍了利用外部知识帮助机器阅读理解的相关论文；第三部分主要是机器阅读理解领域分析性的论文，可以帮助读者深入理解有机器阅读理解系统的优点、缺点以及潜在的改进方向；第四部分介绍了开放域问答的相关论文，开放域问答是要求机器对阅读的文章进行自动检索，是机器阅读理解应用于现实场景的一个改进。第五部分介绍了机器阅读理解和开放域问答领域的数据集。

我们希望这份清单可以帮助机器阅读领域的读者迅速入门并开展深入研究。欢迎广大读者为论文列表的更新提出意见与建议。

* 清单链接：https://github.com/thunlp/RCPapers

BJFfayq.png!web

#Knowledge Representation Learning

eYJru2M.jpg!web

@整理者：曹书林、韩旭

此份清单整理了与 知识表示学习 相关的工具与论文。表示学习旨在将研究对象的语义信息表示为低维稠密向量，知识表示学习则面向知识库中的实体和关系进行表示学习，从而高效计算实体和关系的语义联系，有效解决数据稀疏问题，使知识获取、融合和推理的性能获得显著提升。清单整理了知识表示学习领域较为重要的模型，希望可以帮助读者迅速入门并开展深入研究。欢迎广大读者为论文列表的更新提出意见与建议。

* 清单链接：https://github.com/thunlp/KRLPapers

yEnyAzU.png!web

#Graph Neural Network

JVZvUnN.jpg!web

@整理者：周界、张正彦、崔淦渠、白雨石

这份清单列出了近年来 图神经网络 相关的论文。论文选取了图神经网络领域的经典论文以及近两年来机器学习、数据挖掘、计算机视觉、自然语言处理等领域顶级会议的发表论文。

列表在第一部分列出了近期图神经网络、图表示学习相关的综述论文，这些文章能够为读者提供总览式的领域了解与入门。列表第二部分介绍了图神经网络模型相关的论文，从基础模型、图类型、池化方法、理论分析和效率分析等五个角度进行了论文的分类。列表第三部分列出了图神经网络在不同应用场景中的论文，主要包括物理、生物与化学、知识图谱、推荐系统、计算机视觉、自然语言处理等 16 大类应用。

随着领域的快速发展，列表还将保持及时更新，欢迎广大读者为论文列表的更新提出意见与建议。

* 清单链接：https://github.com/thunlp/GNNPapers

QJNVNfV.png!web

#Legal Intelligence

YVneuqz.jpg!web

@整理者：钟皓曦、肖朝军

该份清单整理了一份 法律智能 相关论文列表。法律智能是一个近来受到学者广泛关注的话题。中国裁判文书网发布的大量法律文书资料，为法律智能的研究带来了充分的研究材料。连续两届中国司法智能挑战赛（CAIL）也为该领域带来了大量的开放数据和研究方向。

本列表整理了近些年来国内外在法律智能领域有代表性的各个论文，包括一些法律智能领域有代表性的数据集，各个不同方向法律智能的方法论文例如判决预测、法律问答、法律信息获取、法律信息抽取等。

我们希望这份列表能为对法律智能感兴趣的研究者带来帮助，也希望研究者们能够贡献更多的有价值的法律智能的论文。

* 清单链接：https://github.com/thunlp/LegalPapers

希望这些论文列表可以给大家的科研工作带来一些启发与灵感！

欢迎大家关注 清华大学自然语言处理实验室 Github 官方账号！

Github 主页：

https://github.com/thunlp

https://github.com/THUNLP-AIPoet

https://github.com/THUNLP-MT

nmYFBne.png!web

# 投稿通道 #

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？ 答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是 最新论文解读 ，也可以是 学习心得 或 技术干货 。我们的目的只有一个，让知识真正流动起来。

:memo: 来稿标准：

• 稿件确系个人 原创作品 ，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

:mailbox_with_mail: 投稿邮箱：

• 投稿邮箱： [email protected]

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

:mag:

现在，在 「知乎」 也能找到我们了

进入知乎首页搜索 「PaperWeekly」

点击 「关注」 订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击 「交流群」 ，小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 | 阅读原文 | 获取更多论文推荐

Github 主页：

Recommend

量子计算商用新的里程碑？英特尔和 QuTech 推出了用于量子计算的马岭低温控制芯片

生鲜“战疫”的B面：中上游走向零售一线

完全使用忆阻器实现CNN，清华大学微电子所新研究登上Nature

比特币再现“黄金交叉” 1万美元以下的比特币再也难见？

2020年，你必须知道的JS数组技巧

Motorola issues official response over Razr screen peeling. Says don't worry.

中国联通：抗疫是5G终端发展重要机遇布局不受影响

IDC：2020年中国云计算市场十大预测

戴尔以 20.75 亿美元出售 RSA

发达国家浪费的食物最多

About Joyk