8

自然语言处理之语料库资源

 3 years ago
source link: http://wwj718.github.io/post/%E6%95%B0%E6%8D%AE/nlp-corpus/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

巧妇难为无米之炊

语料库(corpus)一词在语言学上意指大量的文本,是在语言的实际使用中真实出现过的语言材料,通常经过整理,具有既定格式与标记

事实上,语料库英文 “text corpus” 的涵意即为 “body of text”。

语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。

本文主要关注中文语料库(顺便一提英文语料库)

英文语料库

NLTK的nltk_data囊括数个在 NLP 研究圈里广泛使用的实用语料库,针对英文的自然语言处理,已经成果显著,资源也易于获取,这里列出一些不错的语料库,我们更多的精力放在中文语料库上

先列出NLTK里的语料库:

  • 布朗语料库(Brown Corpus):第一个可以在计算语言学处理中使用的通用英语语料库。它包含了一百万字 1961 年出版的美语文本。它代表了通用英语的样本,采样自小说,新闻和宗教文本。随后,在大量的人工标注后,诞生了词性标注过的版本。
  • 古登堡语料库(Gutenberg Corpus):古登堡计划(Gutenberg Project)致力于将文化作品的数字化和归档,并鼓励创作和发行电子书。古登堡语料库选择了 14 个文本,整个语料库包含了一百七十万字v
  • Stopwords Corpus:NLTK 所收集的停用词语料库(Stopwords Corpus)包含了 来自 11 种不同语言(包括英语)的 2400 个停用词

其他的著名语料库

中文语料库

github的一些资源

搜狗实验室

  • google-10000-english:list of the 10,000 most common English words in order of frequency, as determined by n-gram frequency analysis of the Google’s Trillion Word Corpus
  • corpora:A collection of small corpuses of interesting data for the creation of bots and similar stuff.
  • pattern 从互联网获取语料

Recommend

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK