5

最全中文MRC抽取数据集

 2 years ago
source link: https://mp.weixin.qq.com/s?__biz=MjM5ODkzMzMwMQ%3D%3D&%3Bmid=2650430071&%3Bidx=4&%3Bsn=ed871dd4c1542f1e8178d2a459f8b48e
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
640?wx_fmt=jpeg

由于笔者想要收集中文MRC抽取数据时发现网上并没有比较全的收集,加上数据大多比较分散,于是自己收集了一波,希望能帮到后面的研究者。(表格过大,建议电脑端阅读)

全部的在https://github.com/sherlcok314159/ChineseMRC-Data,可以先抽样一个看看:

1. WebQA

  • 链接(可恶公众号不能插外链)
  • 特点:数据量:572.3K问题类型:单片段抽取,包括不可回答负例;百度于2016年开源的数据集,数据来自于百度知道;格式为一个问题多篇意思基本一致的文章,分为人为标注以及浏览器检索;数据整体质量中,因为混合了很多检索而来的文章;文章分为人工标注(ANN)和浏览器检索(IR);问题和文章的答案分为可回答(positive)和不可回答(other_negative);query-passage-answer三元组,无答案索引
640?wx_fmt=png
QuestionsourcetypeAnswerPassage1945年国共重庆谈判签署的协议是IRother_negativeNo Answer1945年抗日战争胜利后,为避免内战、争取和平,中囯共产党同国民党政府在重庆进行了为期43天的和平谈判,史称重庆谈判。同上ANNpositive双十1945年抗日战争胜利后,为避免内战、争取和平,中囯共产党同国民党政府在重庆进行了为期43天的和平谈判,史称重庆谈判。整个事件过程从1945年8月29日开始,至10月10日结束,国共双方签订了《政府与中共代表会谈纪要》(即《双十协定》)
0?wx_fmt=png
AINLP
一个有趣有AI的自然语言处理公众号:关注AI、NLP、机器学习、推荐系统、计算广告等相关技术。公众号可直接对话双语聊天机器人,尝试自动对联、作诗机、藏头诗生成器,调戏夸夸机器人、彩虹屁生成器,使用中英翻译,查询相似词,测试NLP相关工具包。
344篇原创内容
Official Account
进技术交流群请添加AINLP小助手微信(id: ainlper)
请备注具体方向+所用到的相关技术点
640?wx_fmt=jpeg

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLPer(id:ainlper),备注工作/研究方向+加群目的。

640?wx_fmt=jpeg

阅读至此了,分享、点赞、在看三选一吧🙏


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK