自然语言处理之语料库资源

自然语言处理之语料库资源

3 years ago

source link: http://wwj718.github.io/post/%E6%95%B0%E6%8D%AE/nlp-corpus/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

巧妇难为无米之炊

语料库（corpus）一词在语言学上意指大量的文本，是在语言的实际使用中真实出现过的语言材料，通常经过整理，具有既定格式与标记

事实上，语料库英文 “text corpus” 的涵意即为 “body of text”。

语料库是语料库语言学研究的基础资源，也是经验主义语言研究方法的主要资源。

本文主要关注中文语料库（顺便一提英文语料库）

英文语料库

NLTK的nltk_data囊括数个在 NLP 研究圈里广泛使用的实用语料库，针对英文的自然语言处理，已经成果显著，资源也易于获取，这里列出一些不错的语料库，我们更多的精力放在中文语料库上

先列出NLTK里的语料库：

布朗语料库（Brown Corpus）：第一个可以在计算语言学处理中使用的通用英语语料库。它包含了一百万字 1961 年出版的美语文本。它代表了通用英语的样本，采样自小说，新闻和宗教文本。随后，在大量的人工标注后，诞生了词性标注过的版本。
古登堡语料库（Gutenberg Corpus）：古登堡计划（Gutenberg Project）致力于将文化作品的数字化和归档，并鼓励创作和发行电子书。古登堡语料库选择了 14 个文本，整个语料库包含了一百七十万字v
Stopwords Corpus：NLTK 所收集的停用词语料库（Stopwords Corpus）包含了来自 11 种不同语言（包括英语）的 2400 个停用词

其他的著名语料库

中文语料库

github的一些资源

搜狗实验室

互联网词库(SogouW)：搜狗实验室

google-10000-english：list of the 10,000 most common English words in order of frequency, as determined by n-gram frequency analysis of the Google’s Trillion Word Corpus
corpora：A collection of small corpuses of interesting data for the creation of bots and similar stuff.
pattern 从互联网获取语料

Recommend

Github github.com 6 years ago
Cache

中文公开聊天语料库

说明该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作该库搜集了包含 chatterbot 豆瓣多轮 PTT八卦语料青云语料电视剧对白...

www.infoq.cn 5 years ago
Cache

机器翻译语料数据太少怎么破？今日头条、南大提出基于镜像生成的 NMT 新模型

机器翻译系统中，非平行数据的训练和解码一直是个挑战。不久前，今日头条和南京大学联合提出了基于镜像生成的 NMT，它是一个统一的体系结构，包含目标 - 源转换模型、源 - 目标转换模型和两个语言模型，翻译模型和语言模型在同一个隐语义...

blog.yuanpei.me 3 years ago
Cache

SnowNLP 使用自定义语料进行模型训练

SnowNLP 使用自定义语料进行模型训练2021-05-1930 17 min.SnowNLP 是一个功能强大的中文文本处理库，它囊括了中文分词、词性标注、情感分析、文本分类、关键字/摘要提取、TF/IDF

微信 mp.weixin.qq.com 3 years ago
Cache

文言文（古文）-现代文平行语料

感谢小牛翻译团队的开源，项目地址：https://gi...

byronhe.com 3 years ago
Cache

GB 规模语料上的高性能新词发现算法

GB 规模语料上的高性能新词发现算法分词是中文搜索的重要环节，目前分词算法已经比较成熟，分词错误的主要是由于未登录词。因此发现业务领域语料库中的新词，减少未登录词，对改善搜索引擎的用户体验有重要意义。新...

sspai.com 3 years ago
Cache

口语写作好帮手：两个语料查询网站

Matrix 首页推荐Matrix 是少数派的写作社区，我们主张分享真实的产品体验，有实用价值的经验与思考。我们会不定期挑选 Matrix 最优质的文章，展示来自用户的最真实的体验和观点。文章...

yoursite.com 2 years ago
Cache

自然语言处理系列（3）：中文维基语料词向量训练

WordPress Hosting...

www.51cto.com 2 years ago
Cache

人类没有足够的高质量语料给AI学了，2026年就用尽，网友：大型人类文本生成项目启动！

人类没有足够的高质量语料给AI学了，2026年就用尽，网友：大型人类文本生成项目启动！ 2023-01-01 13:42:11 人工智能要知道，这可是把人类...

osp.io 1 year ago
Cache

开源书籍-《文言文（古文）- 现代文平行语料》

开源书籍-《文言文（古文）- 现代文平行语料》 – 开源派《文言文（古文）- 现代文平行语料》包含327本书籍。双语数据共包含97本书籍，其中包含句子级别对齐句子共...

www.v2ex.com 1 year ago
Cache

大模型下优质中文语料匮乏问题

V2EX › 程序员大模型下优质中文语料匮乏问题

英文语料库

中文语料库

github的一些资源

搜狗实验室

Recommend

About Joyk