9

龙泉寺贤超法师:用 AI 为古籍经书识别、断句、翻译

 3 years ago
source link: https://mp.weixin.qq.com/s?__biz=MzU3NTQ2NDIyOQ%3D%3D&%3Bmid=2247497624&%3Bidx=1&%3Bsn=070042b193a2893a3a4fb8c8a2e38b1c
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

By 超神经

内容提要:来自最强科研寺庙龙泉寺的贤超法师,近年来一直在研究人工智能与文献古籍的融合,目前,他已带领的《大藏经》团队实现 AI 自动标点、文白翻译、古籍文字识别等技术实践。

关键词:NLP,LSTM,自动标点

坐落在京郊凤凰岭脚下的龙泉寺,称得上全国甚至全球科研实力最强的佛教寺庙。

凭借当年 学诚 法师 的一句 佛教是古老的,但佛教徒是现代的 ,推动了龙泉寺里的高僧们 搞科研、写代码,将佛学与新技术结合,将项目大众化、国际化 成果不断,屡上 热搜, 被外界持续关注

近期龙泉寺的贤超法师,参加了国内某技术大会,分享了使用人工智能对《大藏经》进行整理和校勘的技术实践。

佛系 AI 的诞生:让佛经更易读

贤超法师原是北京大学物理学院凝聚态物理硕士,2007 年他从北大毕业,2008 年在龙泉寺皈依,此后一直致力于龙泉大藏经的编修与佛学义理研究。

2016 年,AlphaGo 在战胜李世石的历史性事件,引起了贤超法师对 AI 的关注。从那时候起,他便开始尝试将 AI 和自己正在研究的 OCR 技术以及自动标点相结合。

3MVjyuN.jpg!mobile

贤超法师在 Techo Park 开发者大会上介绍其研究成果

佛原生 AI 解决古籍经文痛点 

龙泉寺在整理和校勘的《大藏经》为佛教经典的总集,也称为一切经。在汉传佛教的两千多年里,历朝历代都对《大藏经》进行了翻译、增补、修订。

流传至今有数十个版本,少的有五千多字,多的有一亿两千万字。

fQZzmyB.jpg!mobile

《乾隆版大藏经》的修订参与官员、学者、高僧等 60 余人,

刻字、刷印和装帧等工匠 860 余人,历时六年完成

(图为《乾隆版大藏经》雕版)

2012 年,龙泉寺就着手整理《大藏经》, 计划用整整十年的时间完成。因为传统方法对古籍的整理主要有版本校对、校勘、标点 ,这些步骤能够保证当代读者,也可以尽可能理解晦涩、生僻的经文。

三年后,龙泉寺整理出版了《南山八大部》;再次年,龙泉寺的藏经办公室成立,旨在探索利用人工智能技术,研发出基于深度学习的单字识别引擎;

2017年,龙泉寺成立人工智能与信息技术中心,研发出能识别各种不同大藏经版本的整列识别引擎,并成功的将《六十华严》的大藏经版本进行电子化。

贤超法师目前担任藏经办公室主任,负责《大藏经》的整理工作。

自动标点:OCR +深度学习 

为了降低人们阅读古文典籍的门槛,提高学者的工作效率,在近年来贤超法师团队, 运用了包括深度学习、OCR 在内的技术改变传统《大藏经》的解读方式,目前已经取得了颇为惊艳的效果。

jmayi2F.png!mobile

现代汉语中,句号、引号、书名号等常用标点近十种,

古汉语中仅有的句号、顿号,经文中也很少出现,难以阅读

贤超法师介绍道, 所谓自动标点,是指在没有人工干预的前提下,根据算法给古籍文本自动标注现代中文标点的技术, 这主要是为了方便现代读者阅读。

此前,已有人工智能为古文加标点的相关研究,不过贤超法师表示,之前基本只是为古文加句号,他认为这个做法「比较保守,比较学术性」。

而他的团队将深度学习运用到了自动标点上, 可以以更高的准确性,给古文添加句号、逗号、问号、感叹号、冒号、分号和顿号其中标点符号。 经过验证,他们所研发的 Transformer 标注结果,和人类的标注结果「几乎已经无法区分」。

RNN+LSTM+ResNet 效果全面提升 

自动标点,在 NLP 领域来说,就是一个简单的序列标注问题。解决这类问题的标准方法,就是使用循环神经网络(RNN)。

为了增强 RNN 的性能,在此基础上又发展出来了双向 RNN,也就是每一时刻的输出不仅仅取决于之前时刻的所有输入,而是同时取决于之前和之后的输入。之后,贤超法师团队又将 LSTM 方法引入。

但是此前基于这些技术所实现的自动标点,效果仍不是很令人满意。贤超法师团队之所以 达到出乎意料的效果,是因为他们 在此前的基础上,引入了 ResNet 残差网络(Residual network)。

UrayqmE.png!mobile

团队 2019 年发表论文

《大藏经的汇编:当 AI 遇见佛教》, 介绍了其自动标点技术

贤超法师解释道,以往的神经网络最多就是十几层、二十多层的结构,如果层数再多,训练结果就不太容易收敛了。 而残差网络动辄几百层,甚至上千层。更深的网络有助于捕捉到更深层的语义信息,这是其大获成功的关键。

团队也曾尝试使用卷积神经网络(CNN),最终效果是,残差网络比卷积神经网络的标点准确率平均高出 20-30% 左右。

AI 自动标点工具效率如何呢? 贤超法师用一天时间完成了 2 万字左右规模的古文标点,按照古籍标点每千字 15 元的一般稿酬水平,相当于一天创造了 300 元的经济价值。 即使自动标点的准确率只按照 60% 来算,其每天也创造了 180 元的价值。

yUjeI3V.gif!mobile

团队对该自动标点工具也在不断升级

目前最新一代的准确率达到 93.3%

目前,由于贤超法师团队的训练数据多取自佛经,因此其自动标点更适合标点佛教典籍。不过,他表示, 未来该技术也将应用在,经史子集等更多领域的古文献整理工作之中,从而让学者们摆脱机械、重复性的劳动。

今后的古籍点校工作模式有希望改为:AI 先断句、加标点;专业学者进行后期校对、修改。

贤超法师团队在 18 年就开源了这一自动标点的在线服务, 访问古籍·酷(http://gj.cool)可以试用,还可以申请免费调用 API。

识别、翻译:AI 成为佛经汉化百宝箱

除了自动标点,贤超法师还将 AI 应用古籍研究的多个方面。

文白对句:对齐 & 翻译 

文白对句,也就是古文到现代文的对齐和翻译。为了实现 AI 文白对句,贤超法师首先构建了一个文白对齐的语料库,然后设计了一个对齐算法,取得了很好的效果。 根据相似度和差异度这两个独立指标,可以非常容易地定位出对齐错误的句子。

f2AJNzV.png!mobile

将《大藏经》翻译并单句分离开对齐

有助于人工后期检索与校对

由于《大藏经》专业名词众多,且历代翻译著作语料繁杂,因此并非古文相关专业就能搞定。《大藏经》的总字数以亿计,如果仅依靠有限的几位专家,工作量将十分巨大,所以,AI 的介入,为专家们分担了不少工作量。

基于深度学习的 OCR,识别古籍文字 

目前市面上的 OCR 软件都是针对印刷体的,因此不能很好地识别古籍文献中的字体。

贤超法师及其合作团队,基于 CNN+LSTM+CTC 框架,开发了新的 OCR 引擎。然后基于《大藏经(高丽版)》的七万多张整图,168 万条文本行图像的数据集进行训练。

r2Iz2yM.jpg!mobile

基于弱监督学习的精确文字分割

最终,其开发的 OCR 方法能够进行古籍的单字识别、单列识别和半自动的多列识别,能够有效地完成各类古籍的电子化工作。

2ymEnmz.jpg!mobile

OCR 软件识别古文将其数字化

贤超法师还在其公众号「贤超小和尚」(微信号:xianchaofashi)中,分享了更多项目实践和学佛感悟,感兴趣的朋友可以关注。

科技与佛法:以悲悯为内核的不同外化

佛法与科技,距离并不遥远。

我们也曾在 《本世纪,佛祖派机器人来弘扬佛法》 一文中,对佛教与科技融合的趋势做出过报道,近年来涌现的贤二机器人 、机器观音、智能佛珠等等,早已讲科技深刻和谐地融入进佛法。

NV7nAnQ.png!mobile

科技与佛学的融合中佳作频出,吸引关注

龙泉寺的另一位知名高僧、IT 禅修营的创办者贤信法师,在一次访谈里被提问佛法和科技的关系。

他回答:「 科技,是追求物质世界的真。佛法,是内心世界的真。 很多在科学上做出探索、在技术上做出探索的人,最开始是抱着想为人类做贡献的心,跟佛教提出最慈悲的追求也是相共的,这就是科技与佛法的共同点。

参考资料:

贤超小和尚公众号:《人工智能与中华文明的碰撞交融》

2050 云栖大会:《贤度法师——龙泉寺的科技实践》

龙泉寺自动标点工具: http://gj.cool/gjcool/index

—— 完 ——

f2U7raB.jpg!mobile

扫描二维码,加入讨论群

获得更多优质数据集

了解人工智能落地应用

关注顶会&论文

回复「读者」了解详情

更多精彩内容(点击图片阅读)

yUZF7nr.png!mobile

7bYFNna.png!mobile

jmIVf2V.png!mobile

J7fimqJ.gif!mobile


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK