《中文信息学报》新刊概览∣ 2020年第11期（34卷第11期）

JCIP 中文信息学报 2020-12-11 07:42

↑点开查看清晰大图

语言资源建设

✦ 基于大规模语料库的介词结构搭配库构建

作者：邢丹，饶高琦，荀恩东，王诚文

摘要：语言知识可帮助计算机正确地处理自然语言,介词结构知识作为语言知识的一种，对自然语言处理和语言教学研究有很重要的意义。该文基于大规模语料库构建了高质量的介词结构搭配库。首先在前人研究的基础上，对介词进行归类并建立了介词搭配知识体系，而后设计并实现了从大数据中获取介词结构搭配知识的规则，最后对抽取结果及其数据规模进行了统计和评估，主要目的是通过形式手段获取高质量的介词结构搭配，同时也为自然语言处理和语言学基础研究及应用提供数据支持。

关键词：语料库；知识抽取；介词结构搭配

引用格式：邢丹,饶高琦,荀恩东,王诚文. 基于大规模语料库的介词结构搭配库构建[J]. 中文信息学报, 2020, 34(11): 1-8.

XING Dan, RAO Gaoqi,XUN Endong, WANG Chengwen. Large-scale Corpus Based Preposition Structure Collocation Base[J].Journal of Chinese Information Processing,2020, 34(11): 1-8.

全文链接：点击下载

✦ 一个面向中文古诗词理解难易度的人工标注数据集

作者：刘磊，何苯，孙乐

摘要：向读者推荐阅读难度合适的古诗词有助于提升读者的诗词鉴赏能力。现阶段，围绕古诗词可读性自动化分析的相关研究的突出局限之一是缺乏大规模高质量的数据集。针对该问题，该文研究面向古诗词可读性自动化分析的数据集构建。该文作者对外开放了包含1 915篇古诗词的标注阅读理解难度的数据集①。该文首先将数据集划分成易中难三级，构建数据集APRD；然后进一步细化标注，构建六级分类数据集APRD+。抽取教材中的诗词组成标准集，以年级为标准难度级别，计算标准集与APRD、APRD+之间的Spearman相关性，Spearman系数分别为0.786与0.804，表明该数据集标记结果与标准集具有较高一致性。该文提取了字频、注释数等古诗词特征，采用SVM、随机森林等算法进行了初步古诗词阅读理解难易度分类测试。文内提出的古诗词可读性数据集与实验结果可作为后续研究的测试基准。

关键词：中文古诗词；可读性分析

引用格式：刘磊,何苯,孙乐. 一个面向中文古诗词理解难易度的人工标注数据集[J]. 中文信息学报, 2020, 34(11): 9-18,48.

LIU Lei, HE Ben, SUN Le. A Corpus of Ancient Chinese Poetry Annotated with Readability[J].Journal of Chinese Information Processing,2020, 34(11): 9-18,48.

全文链接：点击下载

✦ 汉语中介语的依存句法标注规范及标注实践

作者：肖丹，杨尔弘，张明慧，陆天荧，杨麟儿

摘要：汉语中介语是伴随着汉语国际教育产生的，随着汉语学习在全球的不断开展，汉语中介语的规模不断增长，由于这些语料在语言使用上有其独特性，使得中介语成为语言信息处理和智能语言辅助学习的独特资源。依存语法分析是语言信息处理的重要步骤，英语中介语的依存语法标注语料已经有很好的应用，目前汉语中介语语料库对句法的关注度较低，缺乏一个充分考虑汉语中介语特点的依存句法标注规范。该文着眼于汉语中介语的依存句法标注语料库的建构，探讨依存标注规范，在充分借鉴国际通用依存标注体系（Universal Dependencies）的基础上，制定了汉语中介语的依存标注规范，并进行了标注实践，形成了一个包括汉语教学语法点的中介语依存语料库。

关键词：汉语中介语；依存句法；标注规范

引用格式：肖丹,杨尔弘,张明慧,陆天荧,杨麟儿. 汉语中介语的依存句法标注规范及标注实践[J]. 中文信息学报, 2020, 34(11): 19-28,36.

XIAO Dan, YANG Erhong, ZHANG Minghui, LU Tianying, YANG Liner. Dependency Annotation Guideline for Chinese Inter-language[J]. Journal of Chinese Information Processing,2020,34(11): 19-28,36.

全文链接：点击下载

知识表示与知识获取

✦ 基于地理空间数据的知识图谱构建技术研究

作者：刘俊楠，刘海砚，陈晓慧，郭漩，朱新铭

摘要：随着3S技术迅猛发展，地理空间数据呈现出爆发式增长趋势，基于地理空间数据构建知识图谱，实现数据到空间知识的转换成为亟待解决的科学问题。针对通用知识图谱仅以属性和语义关系表示空间知识，以及空间关系相对缺失等问题，该文首先描述了空间关系的表示方法；其次，提出了基于空间关系的知识图谱构建技术流程，重点研究空间关系抽取和表示以及多源地理空间数据融合的问题，实现了地理知识图谱构建；最后，论述知识图谱在地理空间领域的应用方向。该研究可以促进地理空间数据和语义网技术的整合，实现网络文本空间化、空间数据语义化，进一步提高智能化服务水平。

关键词：语义网; 知识图谱; 地理空间数据; 空间关系

引用格式：刘俊楠,刘海砚,陈晓慧,郭漩,朱新铭. 基于地理空间数据的知识图谱构建技术研究[J]. 中文信息学报, 2020, 34(11): 29-36.

LIU Junnan, LIU Haiyan, CHEN Xiaohui, GUO Xuan, ZHU Xinming. Construction of Knowledge Graph Based on Geo-Spatial Data[J].Journal of Chinese Information Processing,2020,34(11): 29-36.

全文链接：点击下载

✦ 面向临床科研的医疗事件模型与开放数据集合构建

作者：刘旭利，金季豪，阮彤，高大启，殷亦超，葛小玲

摘要：基于电子病历观察性数据的真实世界研究成为目前临床科研的热点。然而关系数据模型无法直接支撑起科研应用中医疗事件的时序关系表示以及知识融合的查询需求。针对上述问题，该文提出了一种新的基于RDF的医疗观察性数据表示模型，该模型可以清晰地表示临床检查、诊断、治疗等多种事件类型以及事件的时序关系。对来源于医院的电子病历数据，经过数据预处理、数据模式转换、时序关系构建以及知识融合4个步骤建立事件图谱。具体地，使用三家上海三甲医院的电子病历数据，构建了包括3个专科、173 395个医疗事件以及501 335个事件时序关系的医疗数据集，并融合了5 313个中文医疗知识库概念。基于临床文献与医生科研需求，该文根据公共卫生流行病学的病因研究、治疗研究等类型，分别提供了针对本数据集的40个问题示例，并将其中的部分问题与传统关系数据库在查询的构建与执行方面进行了实验比对，论证了该事件图谱的优越性。该数据集遵循开放链接标准，在OpenKG上发布并提供了在线访问的SPARQL站点，链接为 https://peg.ecustnlplab.com/dataset.html。

关键词：电子病历数据；病人事件图谱；知识融合

引用格式：刘旭利,金季豪,阮彤,高大启,殷亦超,葛小玲. 面向临床科研的医疗事件模型与开放数据集合构建[J]. 中文信息学报, 2020, 34(11): 37-48.

LIU Xuli, JIN Jihao, RUAN Tong, GAO Daqi, YIN Yichao, GE Xiaoling. Construction of An Open Dataset for Clinical Event Graph[J].Journal of Chinese Information Processing,2020, 34(11): 37-48.

全文链接：点击下载

✦ 煤矿安全知识图谱构建及智能查询方法研究

作者：刘鹏，叶帅，舒雅，鹿晓龙，刘明明

摘要：煤矿企业正从信息化建设向智能化迈进，以大数据、人工智能为代表的网络新技术已促进了矿山领域的智能化发展。但是由于煤矿领域数据信息的繁杂性，难以对其进行统一而高效地收集、信息挖掘，进而促进深一步的特定领域研究和应用。将知识图谱技术初步引入煤矿安全领域，对相关知识概念分类建模，并基于图数据库存储，用实体关系图的方式直观地描述各类概念及概念之间的关系，然后基于初步构建的知识图谱，提出了一种自然语言知识查询方法。实验证明，该文提出的方法具有较高的查全率和查准率，基于Spark的并行朴素贝叶斯问题分类方法可以在保证准确率的同时，显著提升训练效率。该文工作为煤矿安全知识图谱构建及智能查询做了初步有益探索。

关键词：煤矿安全;知识图谱;实体识别;知识查询;Spark;朴素贝叶斯

引用格式：刘鹏,叶帅,舒雅,鹿晓龙,刘明明. 煤矿安全知识图谱构建及智能查询方法研究[J]. 中文信息学报, 2020, 34(11): 49-59.

LIU Peng, YE Shuai,SHU Ya, LU Xiaolong, LIU Mingming. Coalmine Safety: Knowledge Graph Construction and Its QA Approach[J].Journal of Chinese Information Processing,2020, 34(11): 49-59.

全文链接：点击下载

机器翻译

✦ 基于CNN-CorrNet网络的汉缅平行句对抽取方法

作者：毛存礼，吴霞，朱俊国，余正涛，李云龙，王振晗

摘要：构建双语平行语料库是提升低资源语言机器翻译质量的一种有效方法。该文提出了基于CNN-CorrNet网络的汉缅平行句对抽取方法。具体而言，该文首先利用BERT得到汉语、缅语词向量表征，并将汉语、缅语两种语言句子用卷积神经网络进行句子表征，以捕捉句子重要特征信息；然后为了保证两种语言跨语言表征的最大相关性，利用已有的汉缅平行句对作为约束条件，使用CorrNet（相关神经网络）将汉缅的句子表征投影到公共语义空间；最后计算公共语义空间中汉语、缅语句子距离，并根据距离判断汉—缅双语句子是否为平行句子。实验结果表明，相比最大熵模型、孪生网络模型，该文提出的方法F1值分别提升了13.3%、5.1%。

关键词：汉缅双语；平行句对；卷积神经网络；相关神经网络；公共语义空间

引用格式：毛存礼,吴霞,朱俊国,余正涛,李云龙,王振晗. 基于CNN-CorrNet网络的汉缅平行句对抽取方法[J]. 中文信息学报, 2020, 34(11): 60-66.

MAOCunli, WU Xia, ZHU Junguo, YU Zhengtao, LI Yunlong, WANG Zhenhan.Chinese-Burmese Parallel Sentence Pair Extraction Based on CNN-CorrNet[J].Journal of Chinese Information Processing,2020, 34(11): 60-66.

全文链接：点击下载

✦ 基于迭代式回译策略的藏汉机器翻译方法研究

作者：慈祯嘉措，桑杰端珠，孙茂松，周毛先，色差甲

摘要：该文通过稀缺语言资源条件下机器翻译方法的研究以提高藏汉机器翻译质量，同时希望对语言资源匮乏的其他少数民族语言机器翻译研究提供借鉴。首先该文使用164.1万句对藏汉平行语言资源数据在 Transformer 神经网络翻译模型上训练一个基线系统，作为起始数据资源，然后结合翻译等效性分类器，利用迭代式回译策略和译文自动筛选机制，实现了稀缺资源条件下提升藏汉神经网络机器翻译性能的有效模型，使最终的模型比基准模型在藏到汉的翻译上有6.7个BLEU值的提升，在汉到藏的翻译上有9.8个BLEU值的提升，证实了迭代式回译策略和平行句对过滤机制在汉藏（藏汉）机器翻译中的有效性。

关键词：藏汉；回译；稀缺资源；自动筛选；神经网络

引用格式：慈祯嘉措,桑杰端珠,孙茂松,周毛先,色差甲. 基于迭代式回译策略的藏汉机器翻译方法研究[J]. 中文信息学报, 2020, 34(11): 67-73,83.

CIZHEN Jiacuo, SANGJIE Duanzhu, SUN Maosong, ZHOU Maoxian, SE Chajia. Research on Tibetan-Chinese Machine Translation Method with Iterative Back Translation Strategy[J].Journal of Chinese Information Processing,2020, 34(11): 67-73,83.

全文链接：点击下载

信息抽取与文本挖掘

✦结合字形特征与迭代学习的金融领域命名实体识别

作者：刘宇瀚，刘常健，徐睿峰，骆旺达，陈奕，吉忠晟，应能涛

摘要：针对中文金融文本领域的命名实体识别，该文从汉字自身特点出发，设计了结合字形特征、迭代学习以及双向长短时记忆网络和条件随机场的神经网络模型。该模型是一种完全端到端且不涉及任何特征工程的模型，其将汉字的五笔表示进行编码以进行信息增强，同时利用迭代学习的策略不断对模型整体预测结果进行改进。由于现有的命名实体识别研究在金融领域缺乏高质量的有标注的语料库资源，所以该文构建了一个大规模的金融领域命名实体语料库HITSZ-Finance，共计31 210个文本句，包含4类实体。该文在语料库HITSZ-Finance上进行了一系列实验，实验结果均表明模型的有效性。

关键词：金融领域命名实体识别；中文语料库；深度学习

引用格式：刘宇瀚,刘常健,徐睿峰,骆旺达,陈奕,吉忠晟,应能涛. 结合字形特征与迭代学习的金融领域命名实体识别[J]. 中文信息学报, 2020, 34(11): 74-83.

LIU Yuhan, LIU Changjian, XU Ruifeng, LUO Wangda, CHEN Yi, JI Zhongsheng, YING Nengtao.Utilizing Glyph Feature and Iterative Learning for Named Entity Recognition in Finance Text[J].Journal of Chinese Information Processing,2020, 34(11): 74-83.

全文链接：点击下载

✦基于层次模型和注意力机制的文本分类算法

作者：武高博，王黎明，柴玉梅，刘箴

摘要：文本分类一直是自然语言处理任务的研究重点与热点，且被广泛应用到诸多实践领域。首先，该文针对文本分类过程中缺乏层次结构特征的问题，对NMF-SVM分类方法进行优化，利用优化后的分类标签构建树形层次模型，从特征树中提取层次特征；其次，针对关键词与非关键词对分类结果影响程度不同的问题，提出SEAN注意力机制，通过对时间、地点、人物和事件四要素的提取，得到不同词之间的注意力；最后，针对句子间亲和度不同的问题，考虑不同句子的四要素词和语义层面的影响提出句间亲和度计算模型。该文算法适用于四要素突出的数据集，如新闻、小说、阅读理解、微博，在新闻类数据集上与同类别的深度学习文本分类模型以及包含注意力机制的混合模型进行了对比，实验结果表明，该算法在分类效果上具有一定优势。

关键词：文本分类；层次模型；注意力机制

引用格式：武高博,王黎明,柴玉梅,刘箴. 基于层次模型和注意力机制的文本分类算法[J]. 中文信息学报, 2020, 34(11): 84-95.

WU Gaobo, WANG Liming, CHAI Yumei, LIU Zhen. Text Classification Based on Hierarchical Modeland Attention Mechanism[J]. Journal of Chinese Information Processing, 2020, 34(11): 84-95.

全文链接：点击下载

✦基于全局和局部特征感知网络的关系提取方法

作者：宋威，朱富鑫

摘要：关系提取旨在从大量的非结构化数据中提取实体对间的关系。目前，大多数神经网络仅考虑单分支信息流，难以获取足够的语义特征来进行关系提取。针对此问题，该文提出一种基于全局和局部特征感知网络的关系提取方法。该方法首先利用自注意力机制和循环神经网络获取单词的相关性时序特征。其次，构建多分支特征感知卷积神经网络，分别获取全局和局部相关性时序特征，避免全局和局部感知的相互影响。进一步地，对这两种特征进行拼接和筛选，以全面表示句子的重要语义特征。最后，结合Softmax分类器实现关系提取。实验结果表明，该文所提方法优于主流的基于卷积神经网络和循环神经网络的关系提取方法，在标准的SemEval-2010 Task 8和KBP37数据集上F1值分别达到86.1%和64.9%。

关键词：关系提取；神经网络；自注意力机制；特征感知；多分支

引用格式：宋威,朱富鑫. 基于全局和局部特征感知网络的关系提取方法[J]. 中文信息学报, 2020, 34(11): 96-103.

SONG Wei, ZHU Fuxin.Global and Local Feature-Aware Network for Relation Extraction[J].Journal of Chinese Information Processing,2020, 34(11): 96-103.

全文链接：点击下载

问答与对话

✦ 基于知识图谱的在线商品问答研究

作者：王思宇，邱江涛，洪川洋，江岭

摘要： 现阶段，针对商品的自动问答主要由意图识别和答案配置来实现，但问题答案的配置依赖人工且工作量巨大，容易造成答案质量不高。随着知识图谱技术的出现和发展，基于知识图谱的自动问答逐渐成为研究热点。目前，基于知识图谱的商品自动问答主要是通过规则解析的方法将文本形式问题解析为知识图谱查询语句来实现。虽然减少了人工配置工作，但其问答效果受限于规则的质量和数量，很难达到理想的效果。针对上述问题，该文提出一种基于知识图谱和规则推理的在线商品自动问答系统。主要贡献包括: ①构建一个基于LSTM的属性注意力网络SiameseATT（Siamese attention network）用于属性选择；②引入了本体推理规则，通过规则推理使得知识图谱能动态生成大量三元组，使得同样数据下可以回答更多问题。在NIPCC-ICCPOL 2016 KBQA数据集上的实验显示，该系统具有很好的性能。相比一些更复杂的模型，该问答系统更适合电商的应用场景。

关键词：问答系统；知识图谱；注意力机制；规则推理

引用格式：王思宇,邱江涛,洪川洋,江岭. 基于知识图谱的在线商品问答研究[J]. 中文信息学报, 2020, 34(11): 104-112.

WANG Siyu, QIU Jiangtao, HONG Chuanyang, JIANG Ling. Online Commodity KBQA Based on Knowledge Graph[J].Journal of Chinese Information Processing,2020, 34(11):104-112.

全文链接：点击下载

↑点开查看清晰大图

长按识别下图二维码

获取中文信息处理领域

点击|阅读原文|获取当期全文

《中文信息学报》新刊概览∣ 2020年第11期（34卷第11期）

《中文信息学报》新刊概览∣ 2020年第11期（34卷第11期）

Recommend

如何调试Kubernetes集群中的网络延迟问题

MinIO for Microsoft Azure Kubernetes Service

《中文信息学报》新刊概览∣ 2019年第4期（33卷第4期）

《中文信息学报》新刊概览∣ 2021年第2期（35卷第2期）

如何在不规则多边形内均匀撒点的算法

细读《三国演义》：诸葛亮夏口调兵

xdm, 因为组内项目线上 Bug, 被扣绩效合理吗

人总要有点盲目的自信

《中文信息学报》新刊概览∣ 2019年第7期（33卷第7期）

怎样衡量指数的内在收益率？

About Joyk