175

GitHub - wainshine/Chinese-Names-Corpus: 中文人名语料库。中文姓名,姓氏,名字,称呼...

 6 years ago
source link: https://github.com/wainshine/Chinese-Names-Corpus
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

中文人名语料库(Chinese-Names-Corpus)

业余项目“萌名NameMoe(一个基于语料库技术的取名工具)”的副产品。

萌名手机网页测试版:https://www.yimingzi.com/ ,欢迎体验。

不定期更新。只删词,不加词。

可用于中文分词、人名识别。


请勿将本库打包上传其他网站挣积分,已上传的请配合删除,谢谢!


中文常见人名(Chinese_Names_Corpus)

数据大小:120万。

语料来源:从亿级人名语料中提取。

数据清洗:已清洗,但仍存有少量badcase。

新增人名生成器。


中文古代人名(Ancient_Names_Corpus)

数据大小:25万。

语料来源:多个人名词典汇总。

数据清洗:已清洗。


中文姓氏(Chinese_Family_Name)

数据大小:1千。

语料来源:从亿级人名语料中提取。

数据清洗:已清洗。


中文称呼(Chinese_Relationship)

数据大小:5千,称呼词根;18万,中文称呼。

语料来源:多个人名词典汇总。

数据清洗:已清洗,但仍存有大量badcase。


英文人名语料库(English-Names-Corpus)

翻译人名(English_Cn_Name_Corpus)

数据大小:48万。

语料来源:多个人名词典汇总。

数据清洗:已清洗,但仍存有少量badcase,以地名居多。

本语料的人名识别由网友 “ltccss” 友情提供。


日文人名语料库(Japanese_Names_Corpus)

日文人名(Japanese_Names_Corpus)

数据大小:18万。

数据来源:从维基百科中提取。

数据清洗:已清洗,但仍存有少量badcase。

数据清洗过程详见:“日本人名数据清洗分享”。


中文词典语料库(Chinese_Dict_Corpus)

成语词典(ChengYu_Corpus)

数据大小:5万。

语料来源:多个成语词典汇总。

数据清洗:已清洗。


提醒与备注

请勿提交涉政issue:

惹不起呀,谢谢~

语料中还存有的,会在后续的更新中逐步删除掉。


Stargazers over time

Stargazers over time

更新时间:

更早的提交,不记得时间了。

删除了1000余非人名。 -2017.08.08

删除了5000余非人名。 -2017.11.25

新增了18万日文人名。 -2017.12.17

删除了1500余非人名(主要是日文地名)。 -2017.12.30

删除了约3万余非人名、或低频人名。 -2018.11.04

删除了2600余非人名、或低频人名。 -2019.04.15

删除了约1万余非人名、或低频人名。 -2019.07.27

将文件移动到文件夹。 -2019.10.21

新增人名生成器。 -2020.01.29

删除了约6万余非人名、或低频人名。 -2020.12.13

更新人名生成器。 -2021.11.22

删除了约700余非人名、或低频人名。 -2022.11.30


@萌名NameMoe 整理

2022.11.30


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK