18

今日GitHub热榜第一:最全中华古诗词数据库,收录30多万诗词

 4 years ago
source link: https://www.qbitai.com/2019/12/10304.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

乾明 发自 凹非寺

量子位 报道 | 公众号 QbitAI

收录5.5万首唐诗,超过28万首宋词,还囊括了诗经、论语、蒙学等……

这个名为“chinese-poetry”、号称“最全中文诗歌古典文集数据库”的项目,今日登顶GitHub热榜第一。

iYruyua.jpg!web

截止发稿,这一项目已获得近2.5万标星,Fork超过4600,受欢迎度可见一斑。

项目发起者名为Jackey,在Teambition从事运维自动化工作。他解释了为什么要做这个仓库:

从某种意义上来说,这些庞大的文集离我们是有一定距离的。而电子版方便拷贝,所以此开源数据库诞生了。此数据库通过 JSON 格式分发,可以让你很方便的开始你的项目。

10大数据集

整个项目最核心的内容,就是数据集了。

目前,仓库中一共有10个数据集,分别是:全唐诗、全宋诗、全宋词、五代·花间集、五代·南唐二主词、论语、诗经、幽梦影、四书五经、蒙学。

7NRzquY.jpg!web

这些数据,都来自互联网。如何采集的?项目发起者也分享了全宋词爬取过程及数据分析。

为什么没有古诗?他也给出了解释,古诗采集没有记录过程,因为古诗数据庞大,目标网站有限制,采集过程经常中断超过了一个星期。

围绕着数据库,他也进行了一个初步的词频分析:

6Nn6buv.gif

但这些数据集的应用,远远不止于此。

8大案例展示

在项目中,作者也放上了使用数据集的应用案例。

有基于浏览器的诗词网站,有安卓版的应用“离线全唐诗”,有简体唐诗生成(char-RNN),也诗词桌面和相关小程序等等。

AZjm2iz.jpg!web

而且这些项目,也大都在GitHub上开源了。

如果你有兴趣,可以收好传送门:

https://github.com/chinese-poetry/chinese-poetry

版权所有,未经授权不得以任何形式转载及使用,违者必究。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK