2

开源书籍-《文言文(古文)- 现代文平行语料》

 10 months ago
source link: http://osp.io/archives/7979
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

开源书籍-《文言文(古文)- 现代文平行语料》 – 开源派

《文言文(古文)- 现代文平行语料》包含327本书籍。双语数据共包含97本书籍,其中包含句子级别对齐句子共计 972467 个句对。原始爬取的数据是篇章级对齐,经过脚本分句以及人工校对,形成共计约 96 万句对,source 下为文言文,target 下为现代文,文件内容按行对齐。本项目遵守遵守MIT开源协议。

h8_439655.jpg@596w_1l.jpg

从文学角度出发,本项目将所有古文原文整理至文件夹 古文原文 中,并对每本古籍,按篇章/章节进行划分与展示,正文部分存于各章节下的 text.txt 中,例如 论语/学而篇/text.txt ,孟子/梁惠王章句上/第一节/text.txt 。对于平行数据,本项目整理至文件夹 双语数据 中,这些双语数据是以句子级别为单位进行划分,本项目提供了原文、译文、双语三种数据格式,例如:论语/学而篇/source.txt 、 论语/学而篇/target.txt 、 论语/学而篇/bitext.txt 。注:所有数据均按行保留了古文原文的相对顺序,即数据非打乱。

源代码:https://github.com/NiuTrans/Classical-Modern


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK