0

《中文信息学报》新刊概览∣ 2020年第5期(34卷第5期)

 2 years ago
source link: https://mp.weixin.qq.com/s?__biz=MzI2NjY1NDE3MQ%3D%3D&%3Bmid=2247484503&%3Bidx=1&%3Bsn=fe3c8c2bc16cacd65298f4bce9985a45
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

《中文信息学报》新刊概览∣ 2020年第5期(34卷第5期)

JCIP 中文信息学报 2020-06-24 07:46
640?wx_fmt=gif
640?wx_fmt=jpeg

 ↑点开查看清晰大图  

语言分析与计算

✦ 基于局部语义相关性的定义文本义原预测

作  者:杜家驹,岂凡超,孙茂松,刘知远

摘  要:作为人类语言的最小语义单位,义原已被成功应用于许多自然语言处理任务。人工构造和更新义原知识库成本较大,因此义原预测被用来辅助义原标注。该文探索了利用定义文本为词语自动预测义原的方法。词语的各个义原通常都与定义文本中的不同词语的语义有相关关系,这种现象被称为局部语义相关性。与之对应,该文提出了义原相关池化(SCorP)模型,该模型能够利用局部语义相关性来预测义原。在HowNet上的评测结果表明,SCorP取得了当前最好的义原预测性能。大量的定量分析进一步证明了SCorP模型能够正确地学习义原与定义文本之间的局部语义相关性。

关键词:义原预测; HowNet; 语义相关性

引用格式:杜家驹,岂凡超,孙茂松,刘知远. 基于局部语义相关性的定义文本义原预测[J]. 中文信息学报, 2020, 34(5): 1-9.

DU Jiaju, QI Fanchao, SUN Maosong, LIU Zhiyuan. Lexical Sememe Prediction by Dictionary Definitions and Local Semantic Correspondence[J]. Journal of Chinese Information Processing, 2020, 34(5): 1-9.

全文链接:点击下载

✦ 结合特殊领域实体识别的远监督话语领域分类

作  者:何宇虹,黄沛杰,杜泽峰,刘 威,朱建恺,章锦川

摘  要:近年来,基于注意力(attention)机制的循环神经网络在文本分类中表现出显著的性能。然而,当训练集数据有限时,测试集数据中许多领域实体指称项在训练集中处于低频,甚至从未出现,如中文话语领域分类任务。该文提出结合特殊领域实体识别的远监督话语分类模型。首先,通过远监督(distant supervision)的方式获取数据集中的领域知识,显著地减少了人工操作;其次,利用特殊领域实体识别和本地构建的补充性知识库去补全远监督获取的领域知识,旨在为模型提供更加全面的领域知识;最后,对基于上下文的语义特征和知识特征这两种异构信息提出了细粒度拼接机制,在词级上融合了预训练词汇语义表达和领域知识表达,有效提升了分类模型的性能。通过与研究进展的文本分类模型的对比实验表明,该文模型在中文话语领域分类基准数据集的实验上取得了较高的正确率,特别是在知识敏感型领域,较研究进展方法具有显著优势。

关键词:领域分类;外部知识;远监督;话语表达;神经分类器

引用格式:何宇虹,黄沛杰,杜泽峰,刘威,朱建恺,章锦川. 结合特殊领域实体识别的远监督话语领域分类[J]. 中文信息学报, 2020, 34(5): 10-18.

HE Yuhong, HUANG Peijie, DU Zefeng, LIU Wei, ZHU Jiankai, ZHANG Jinchuan. Distant Supervision Based Utterance Domain Classification with Domain-Specific NER[J].Journal of Chinese Information Processing,2020, 34(5): 10-18.

全文链接:点击下载

语言资源建设

面向儿科疾病的命名实体及实体关系标注语料库构建及应用

作  者:昝红英,刘 涛,牛常勇,赵悦淑,张坤丽,穗志方

摘  要:当前医学语料库实体及实体关系的分类体系难以满足精准医学发展需求的问题,该文针对儿科疾病开展研究。在医学领域专家的指导下制定了适合儿科学的命名实体和实体关系的标注体系及详细标注规范;融合国内外相关医学标准资源,利用标注工具对298余万字儿科医学文本中实体及实体关系进行机器预标注、人工标注及人工校对,构建了面向儿科疾病的医学实体及关系语料库。所构建的语料库包含504种儿科常见疾病,共标注命名实体23 603个,实体关系36 513个,多轮标注一致性分别为0.85和0.82。基于该语料库构建了儿科医学知识图谱,并开发了基于知识图谱的儿科医学知识问答系统。

关键词:儿科疾病;语料库建设;命名实体;实体关系;知识图谱

引用格式:昝红英,刘涛,牛常勇,赵悦淑,张坤丽,穗志方. 面向儿科疾病的命名实体及实体关系标注语料库构建及应用[J]. 中文信息学报, 2020, 34(5): 19-26.

ZAN Hongying, LIU Tao, NIU Changyong, ZHAO Yueshu, ZHANG Kunli, SUI Zhifang. Construction and Application of Named Entity and Entity Relations Corpus for Pediatric Diseases[J].Journal of Chinese Information Processing,2020, 34(5): 19-26.

全文链接:点击下载

✦ 基于历时语料库的在线词典编纂系统设计

作  者:吴 先,胡俊峰

摘  要:语料库语言学是借助大规模语料库对语言现象进行发现、挖掘的学科,目前已经存在很多在线语料库辅助语言学的研究。该文提供了一个按时间分片进行管理的语料库,并基于此提出了一个由社区维护的在线词典编纂系统,该系统将语料库查询结果动态结合在被编辑的词条中。该文还介绍了一个多义词词义发现和层次化聚类算法,用以自动生成一个默认的词条框架。该文概述了词典编纂系统的总体情况,重点介绍系统的设计和使用方法。

关键词:词典编纂;历时语料库;系统设计;词义发现

引用格式:吴先,胡俊峰. 基于历时语料库的在线词典编纂系统设计[J]. 中文信息学报, 2020, 34(5): 27-35.

WU Xian, HU Junfeng.Design of An Online Lexicographic System Based on Diachronic Corpus[J].Journal of Chinese Information Processing,2020, 34(5): 27-35.

全文链接:点击下载

机器翻译

✦ 基于数据扩充的翻译记忆库与神经机器翻译融合方法

作  者:曹 骞,熊德意

要:神经机器翻译是目前机器翻译领域的主流方法,而翻译记忆是一种帮助专业翻译人员避免重复翻译的工具,其保留之前完成的翻译句对并存储在翻译记忆库中,进而在之后的翻译过程中通过检索去重用这些翻译。该文基于数据扩充提出两种将翻译记忆与神经机器翻译相结合的方法:(1)直接拼接翻译记忆在源语句后面;(2)通过标签向量拼接翻译记忆。该文在中英与英德数据集上进行了实验,实验表明,该方法可以使翻译性能获得显著提升。

关键词:神经机器翻译;翻译记忆;数据扩充

引用格式:曹骞,熊德意. 基于数据扩充的翻译记忆库与神经机器翻译融合方法[J]. 中文信息学报, 2020, 34(5): 36-43.

CAO Qian, XIONG Deyi.Integrating Translation Memory into Neural Machine Translation via Data Augmentation[J].Journal of Chinese Information Processing,2020, 34(5): 36-43.

全文链接:点击下载 

民族、跨境及周边语言信息处理

✦ 一种多基元联合训练的藏文词向量表示方法

作  者:才智杰,才让卓玛,孙茂松

摘  要: 词向量表示是机器学习的基础性工作,其目标是以优化的向量表示词,以便计算机能更好地理解自然语言。随着神经网络技术的发展,词向量在自然语言处理领域发挥着重要作用。藏文词向量表示技术的研究对藏文特征分析以及用深度学习技术处理藏文具有重要意义。该文提出了一种构件、字和词多基元联合训练的藏文词向量表示方法,设计了多基元联合训练藏文词向量的模型TCCWE,并采用内部评测中的词相似度/相关性评价方式验证了其有效性。实验表明,该文提出的藏文词向量表示方法有效,其性能在TWordSim215上提高了3.35%,在TWordRel215上提高了4.36%。

关键词:自然语言处理;藏文;神经网络;词向量表示

引用格式:才智杰,才让卓玛,孙茂松. 一种多基元联合训练的藏文词向量表示方法[J]. 中文信息学报, 2020, 34(5): 44-49.

CAI Zhijie, CAI Rangzhuoma, SUN Maosong. A Tibetan Word Embedding Representation Method Basedon Multi-Primitives Joint Training[J]. Journal of Chinese Information Processing,2020, 34(5): 44-49.

全文链接:点击下载

✦一种基于TC_LSTM的藏文词拼写检查方法

作  者:华旦扎西,才智杰,班玛宝

要: 拼写检查能够快速检测文本错误,提高文本校对效率,在语料库建设、文本编辑、语音和文字识别等诸多方面具有广阔的应用前景。该文在分析藏文拼写检查技术和语言模型的基础上,以藏文词拼写检查为目标,选用具有长远距离记忆功能的LSTM建立TC_LSTM语言模型,设计基于TC_LSTM的藏文词拼写检查算法。经测试,基于TC_LSTM语言模型的藏文词拼写检查取得了较好的效果。

关键词自然语言处理;LSTM;藏文词;拼写检查

引用格式:华旦扎西,才智杰,班玛宝. 一种基于TC_LSTM的藏文词拼写检查方法[J]. 中文信息学报, 2020, 34(5): 50-55.

HUA Danzhaxi, CAI Zhijie, BAN Mabao. A TC_LSTM Based Method for Tibetan Spelling Check[J].Journal of Chinese Information Processing,2020, 34(5): 50-55.

全文链接:点击下载

信息抽取与文本挖掘

✦基于案件要素指导的涉案舆情新闻文本摘要方法

作  者:韩鹏宇,高盛祥,余正涛,黄于欣,郭军军

要:涉案舆情新闻文本摘要任务是从涉及特定案件的舆情新闻文本中,获取重要信息作为其简短摘要,因此对于相关人员快速掌控舆情态势具有重要作用。涉案舆情新闻文本摘要相比开放域文本摘要任务,通常涉及特定的案件要素,这些要素对摘要生成过程有重要的指导作用。因此,该文结合深度学习框架,提出了一种融入案件要素的涉案舆情新闻文本摘要方法。首先构建涉案舆情新闻摘要数据集并定义相关案件要素,然后通过注意力机制将案件要素信息融入新闻文本的词、句子双层编码过程中,生成带有案件要素信息的新闻文本表征,最后利用多特征分类层对句子进行分类。为了验证算法有效性,在构造的涉案舆情新闻摘要数据集上进行实验。实验结果表明,该方法相比基准模型取得了更好的效果,具有有效性和先进性。

关键词涉案舆情摘要;案件要素;双层编码;多特征分类

引用格式:韩鹏宇,高盛祥,余正涛,黄于欣,郭军军. 基于案件要素指导的涉案舆情新闻文本摘要方法[J]. 中文信息学报, 2020, 34(5): 56-63,73.

HAN Pengyu, GAO Shengxiang, YU Zhengtao, HUANG Yuxin, GUO Junjun. Case-involved Public Opinion News Summarization with Case Elements Guidance[J]. Journal of Chinese Information Processing, 2020, 34(5): 56-63,73.

全文链接:点击下载

✦基于文献链接信息分析的科技资源风险评估

作  者:罗准辰,赵 赫,叶宇铭,刘晓鹏

要:文献中的链接将文献与数据、代码、文档、网页等科技资源相关联,资源链接引用的上下文信息反映了科研活动中科研主体与科技资源形成的关系。该文通过对文献中的链接信息进行细粒度分析,提出了一种对其关联的科技资源种类和引用目的进行知识建模的方法,并在大规模文献数据集上进行了实证。同时从国内外科技资源的利用情况出发,对科技资源的重要程度、发展方向、使用风险等进行了深入的探索。该文可为了解国内外前沿技术进展,以及我国科研活动中科技资源风险评估判定提供科学依据,且对于自然语言处理领域中对科技文献文本的分析研究具有重大意义。

关键词科技资源风险评估;文献;链接信息

引用格式:罗准辰,赵赫,叶宇铭,刘晓鹏. 基于文献链接信息分析的科技资源风险评估[J]. 中文信息学报, 2020, 34(5): 64-73.

LUO Zhunchen, ZHAOHe, YE Yuming, LIU Xiaopeng. Risk Assessment of Scientific Resources Based on Hyperlink Information Analysis in Literature[J].Journal of Chinese Information Processing, 2020, 34(5): 64-73.

全文链接:点击下载

阅读理解与文本生成

✦ 基于答案及其上下文信息的问题生成模型

作  者:谭红叶,孙秀琴,闫 真

摘  要:基于文本的问题生成是从给定的句子或段落中生成相关问题。目前,主要采用序列到序列的神经网络模型来研究包含答案的句子生成问题,然而这些方法存在以下问题: ①生成的疑问词与答案类型不匹配;②问题与答案的相关性不强。该文提出一个基于答案及其上下文信息的问题生成模型。该模型首先根据答案与上下文信息的关系确定与答案类型匹配的疑问词;然后利用答案及其上下文信息确定问题相关词,使问题尽可能使用原文中的词;最后结合原句作为输入来生成问题。相关实验表明,该文提出的模型性能明显优于基线系统。

关键词:问题生成;神经网络;问题相关词

引用格式:谭红叶,孙秀琴,闫真. 基于答案及其上下文信息的问题生成模型[J]. 中文信息学报, 2020, 34(5): 74-81.

TAN Hongye, SUN Xiuqin, YAN Zhen. Question Generation Model Based on the Answer and Its Contexts[J].Journal of Chinese Information Processing,2020, 34(5): 74-81.

全文链接:点击下载

✦ 基于BERT的任务导向对话系统自然语言理解的改进模型与调优方法

作  者:周奇安,李舟军

摘  要:任务导向对话系统的自然语言理解,其目的就是解析用户以自然语言形式输入的语句,并提取出可以被计算机所理解的结构化信息,其包含意图识别和槽填充两个子任务。BERT是近期提出来的一种自然语言处理预训练模型,已有研究者提出基于BERT的任务导向对话系统自然语言理解模型。在此基础上,该文提出一种改进的自然语言理解模型,其编码器使用BERT,而解码器基于LSTM与注意力机制构建。同时,该文提出了该模型的两种调优方法:锁定模型参数的训练方法、使用区分大小写的预训练模型版本。在基线模型与改进模型上,这些调优方法均能够显著改进模型的性能。实验结果显示,利用改进后的模型与调优方法,可以分别在ATIS和Snips两个数据集上得到0.8833和0.9251的句子级准确率。

关键词:任务导向对话系统;自然语言理解;BERT

引用格式:周奇安,李舟军. 基于BERT的任务导向对话系统自然语言理解的改进模型与调优方法[J]. 中文信息学报, 2020, 34(5): 82-90.

ZHOU Qi'an, LI Zhoujun. BERT Based Improved Model and Tuning Techniques for Natural Language Understanding in Task-oriented Dialog System[J].Journal of Chinese Information Processing,2020, 34(5): 82-90.

全文链接:点击下载

信息检索与问答系统

✦ 双特征空间的实体排序学习

作  者:赵以昕,牛树梓,纪春岩,卢 菲,徐 睿

要:随着大规模知识图谱的出现以及企业高效管理领域知识图谱的需求,知识图谱中的自组织实体检索成为研究热点。给定知识图谱以及用户查询,实体检索的目标在于从给定的知识图谱中返回实体的排序列表。从匹配的角度来看,传统的实体检索模型大都将用户查询和实体统一映射到词的特征空间。这样做具有明显的缺点,例如,将同属于一个实体的两个词视为独立的。为此,该文提出将用户查询和实体同时映射到实体与词两个特征空间方法,称为双特征空间的排序学习。首先将实体抽象成若干个域。之后从词空间和实体空间两个维度分别抽取排序特征,最终应用于排序学习算法中。实验结果表明,在标准数据集上,双特征空间的实体排序学习模型性能显著优于当前先进的实体检索模型。

关键词:知识图谱;实体检索;双特征空间

引用格式:赵以昕,牛树梓,纪春岩,卢菲,徐睿. 双特征空间的实体排序学习[J]. 中文信息学报, 2020, 34(5): 91-99.

ZHAO Yixin, NIU Shuzi, JI Chunyan, LU Fei, XU Rui. Learning to Rank Entities from Dual Feature Spaces[J].Journal of Chinese Information Processing,2020, 34(5): 91-99.

全文链接:点击下载

✦ 基于混合多头注意力和胶囊网络的特定目标情感分析

作  者:王家乾,龚子寒,薛 云,庞士冠,古东宏

要:特定目标情感分析旨在判断上下文语境在给定目标词下所表达的情感倾向。对句子语义信息编码时,目前大部分循环神经网络或注意力机制等方法,不能充分捕捉上下文中长距离的语义信息,同时忽略了位置信息的重要性。该文认为句子的语义信息、位置信息和多层次间的信息融合对该任务至关重要,从而提出了基于混合多头注意力和胶囊网络的模型。首先,使用多头自注意力分别在位置词向量基础上对上下文长句子和在双向GRU基础上对目标词进行语义编码;然后,使用胶囊网络在语义信息交互拼接基础上进行位置信息编码;最后,在融入原始语义信息基础上,使用多头交互注意力对上下文与目标词并行融合的方法得到情感预测结果。在公开数据集SemEval 2014 Task4和ACL 14 Twitter上的实验表明,该文模型性能较传统深度学习和标准注意力方法有显著提升,验证了模型的有效性和可行性。

关键词:特定目标情感分析;胶囊网络;多头注意力

引用格式:王家乾,龚子寒,薛云,庞士冠,古东宏. 基于混合多头注意力和胶囊网络的特定目标情感分析[J]. 中文信息学报, 2020, 34(5): 100-110.

WANG Jiaqian, GONG Zihan, XUE Yun, PANG Shiguan, GU Donghong. Aspect-based Sentiment Analysis Based on Hybrid Multi-Head Attention and Capsule Networks[J].Journal of Chinese Information Processing,2020, 34(5): 100-110.

全文链接:点击下载

 

640?wx_fmt=jpeg

↑点开查看清晰大图  


长按识别下图二维码

获取中文信息处理领域
640?wx_fmt=gif

点击|阅读原文|获取当期全文


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK