3

《中文信息学报》新刊概览∣ 2020年第3期(34卷第3期)

 2 years ago
source link: https://mp.weixin.qq.com/s?__biz=MzI2NjY1NDE3MQ%3D%3D&%3Bmid=2247484472&%3Bidx=1&%3Bsn=cf79b13b1de880619ded469008499a83
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

《中文信息学报》新刊概览∣ 2020年第3期(34卷第3期)

Original JCIP 中文信息学报 2020-05-19 08:18
640?wx_fmt=gif
640?wx_fmt=jpeg

 ↑点开查看清晰大图  

综述

✦ 汉语零形回指消解研究综述

作  者:蒋玉茹,张禹尧,毛 腾,张仰森

摘  要:关于零形回指的研究一直是语言学研究中的一个热点,零形回指消解是自然语言处理中一项十分重要的任务。20多年来,学者们基于语言学规则、机器学习、深度学习等方面,提出了各种研究方法,并取得了大量研究成果。该文首先介绍零形回指的相关概念;接着介绍目前国际上汉语零形回指消解的公开评测资源OntoNotes 5.0数据集及评价指标;其次,系统梳理和对比了国内外汉语零形回指消解所采用的方法;最后,总结和分析了目前零形回指消解研究的主要制约因素,这些因素也正是未来可能的研究方向。

关键词:零形回指消解;语言学规则;机器学习;深度学习

引用格式:蒋玉茹,张禹尧,毛腾,张仰森. 汉语零形回指消解研究综述[J]. 中文信息学报, 2020, 34(3): 1-12.

JIANG Yuru, ZHANG Yuyao, MAO Teng, ZHANG Yangsen. A Survey of Chinese Zero Anaphora Resolution[J].Journal of Chinese Information Processing, 2020, 34(3): 1-12.

全文链接:点击下载

语言分析与计算

✦ 基于知网相关概念场的中文词向量

作  者:冯煜博,蔡东风,宋 彦

摘  要:词向量是词的低维稠密实数向量表示,在自然语言处理的各项任务中都扮演了重要角色。目前词向量大多都是通过构造神经网络模型,在大规模语料库上以无监督学习的方式训练得到,这样的模型存在着两个问题: 一是低频词词向量的语义表示质量较差;二是忽视了知识库可以对该模型提供的帮助。该文提出了利用知网相关概念场来提升词向量语义表示质量的模型。实验结果表明,在词语相似度任务、词语相关度任务和词语类比任务上,该模型使得斯皮尔曼相关性系数和准确率都得到了显著的提升。

关键词:词向量;知网相关概念场;低频词;神经网络语言模型

引用格式:冯煜博,蔡东风,宋彦. 基于知网相关概念场的中文词向量[J].中文信息学报, 2020, 34(3): 13-22.

FENG Yubo, CAI Dongfeng, SONG Yan. Chinese Word Representations Based on HowNet Relevant Concept Field[J]. Journal of Chinese Information Processing, 2020, 34(3): 13-22.

全文链接:点击下载

✦ 基于多头注意力机制Tree-LSTM的句子语义相似度计算

作  者:胡艳霞,王 成,李弼程,李海林,吴以茵

摘  要:针对现有句子语义相似度计算由于缺乏语义结构信息导致精度低的问题,该文在依存关系树的基础上,提出了一种基于多头注意力机制Tree-LSTM(multi-head attention Tree-LSTM,MA-Tree-LSTM)的句子语义相似度计算方法。首先,MA-Tree-LSTM将外部具有指导意义的特征作为输入,再将输入结合多头注意力机制作用在Tree-LSTM树节点的所有孩子节点上,为每个孩子节点赋予不同的权重值,从而实现多头注意力机制和Tree-LSTM的融合;其次,将三层的MA-Tree-LSTM应用于句子语义相似度计算并实现句子对的相互指导,从而得到句子对语义特征的多层表示;最后联合多层的语义特征建立句子对语义相似度计算模型,从而实现句子对间相关的语义结构特征的充分利用。该文提出的方法鲁棒性强,可解释性强,对句子单词的顺序不敏感,不需要特征工程。在SICK和STS数据集上的实验结果表明,基于MA-Tree-LSTM的句子语义相似度计算的精度优于非注意力机制的Tree-LSTM方法以及融合了多头注意力机制的BiLSTM方法。

关键词:句子语义相似度计算;多头注意力机制;Tree-LSTM;语义依存树

引用格式:胡艳霞,王成,李弼程,李海林,吴以茵. 基于多头注意力机制Tree-LSTM的句子语义相似度计算[J]. 中文信息学报, 2020, 34(3): 23-33.

HU Yanxia, WANG Cheng, LI Bicheng, LI Hailin, WU Yiyin. Sentence Semantic Similarity Computation Based on Tree-LSTM with Multi-head Attention[J].Journal of Chinese Information Processing, 2020, 34(3): 23-33.

全文链接:点击下载

语言资源建设

✦ 中文矛盾语块数据集构建和边界识别研究

作  者:李博涵,姜 姗,刘 畅,于 东

要:文本矛盾是自然语言理解的一项基础性问题。目前的研究大多针对矛盾识别任务,而深入文本内部探究矛盾产生原因的工作较少,且缺乏专门的中文矛盾数据集。该文在前人矛盾研究基础上,提出矛盾语块的概念,将其划分为7种类型,并根据标注规范构建了包含16 224条数据的中文矛盾语块(CCB)数据集。基于此数据集,利用序列标注及抽取式阅读理解类模型开展矛盾语块边界识别实验,以检验模型对矛盾内部语义信息的理解能力,结果显示阅读理解类模型在该任务上的性能优于序列标注模型。该文通过三个角度对影响语块边界识别的因素进行分析,为文本矛盾后续研究工作提供可靠的数据集和基线模型。

关键词:自然语言理解;文本矛盾;矛盾语块

引用格式:李博涵,姜姗,刘畅,于东. 中文矛盾语块数据集构建和边界识别研究[J]. 中文信息学报, 2020, 34(3): 34-43.

LI Bohan, JIANG Shan,LIU Chang, YU Dong. Chinese Contradictory Blocks: Boundary Recognition and Its Dataset[J].Journal of Chinese Information Processing,2020, 34(3): 34-43.

全文链接:点击下载 

机器翻译

✦ 融合覆盖机制的多模态神经机器翻译

作  者:李志峰,张家硕,洪 宇,尉桢楷,姚建民

摘  要:多模态神经机器翻译是指直接采用神经网络,以端到端方式融合图像和文本两种模态信息,以此进行翻译建模的机器学习方法。传统多模态机器翻译,是在将源语言翻译成目标语言时,借助图像中的重要特征信息优化翻译过程。但是观察发现,图像里的信息不一定出现在文本中,对翻译也会带来干扰;与参考译文对比,翻译结果中出现了过翻译和欠翻译的情况。针对以上问题,该文提出一种融合覆盖机制双注意力解码方法,用于优化现有多模态神经机器翻译模型。该模型借助覆盖机制分别作用于源语言和源图像,在注意力计算过程中,可以减少对过去重复信息的关注。在WMT16、WMT17测试集上进行实验,验证了上述方法的有效性,在WMT16英德和英法以及WMT17英德和英法测试集上,对比基准系统BLEU值分别提升了1.2,0.8,0.7和0.6个百分点。

关键词:多模态神经机器翻译;覆盖机制;过翻译及欠翻译

引用格式:李志峰,张家硕,洪宇,尉桢楷,姚建民. 融合覆盖机制的多模态神经机器翻译[J]. 中文信息学报, 2020, 34(3): 44-55.

LI Zhifeng, ZHANG Jiashuo, HONG Yu, YU Zhenkai, YAO Jianmin. Merging Coverage Mechanism for Multimodal Neural Machine Translation[J].Journal of Chinese Information Processing,2020, 34(3): 44-55.

全文链接:点击下载

✦ 融合BERT语境词向量的译文质量估计方法研究

作  者:李培芸,李茂西,裘白莲,王明文

摘  要:蕴含语义、句法和上下文信息的语境词向量作为一种动态的预训练词向量,在自然语言处理的下游任务中有着广泛应用。然而,在机器译文质量估计中,没有相关研究工作涉及语境词向量。该文提出利用堆叠双向长短时记忆网络将BERT语境词向量引入神经译文质量估计中,并通过网络并联的方式与传统的译文质量向量相融合。在CWMT18 译文质量估计评测任务数据集上的实验结果表明,融合中上层的BERT语境词向量均显著提高了译文质量估计与人工评价的相关性,并且当对BERT语境词向量的最后4层表示平均池化后引入译文质量估计中对系统性能的提高幅度最大。实验分析进一步揭示了融合语境词向量的方法能利用译文的流利度特征来提高翻译质量估计的效果。

关键词:神经译文质量估计;语境词向量;循环神经网络;编码器—解码器网络;质量向量

引用格式:李培芸,李茂西,裘白莲,王明文. 融合BERT语境词向量的译文质量估计方法研究[J]. 中文信息学报, 2020, 34(3): 56-63.

LI Peiyun, LI Maoxi,QIU Bailian, WANG Mingwen. Integrating BERT Word Embedding into Quality Estimation of Machine Translation[J].Journal of Chinese Information Processing,2020,34(3): 56-63.

全文链接:点击下载

信息抽取与文本挖掘

✦多原型词向量与文本主题联合学习模型

作  者:曹中华,夏家莉,彭文忠,张志斌 

要:常见的词嵌入向量模型存在每个词只具有一个词向量的问题,词的主题值是重要的多义性条件,可以作为获得多原型词向量的附加信息。在skip-gram(cbow)模型和文本主题结构基础上,该文研究了两种改进的多原型词向量方法和基于词与主题的嵌入向量表示的文本生成结构。该模型通过联合训练,能同时获得文本主题、词和主题的嵌入向量,实现了使用词的主题信息获得多原型词向量,和使用词和主题的嵌入式向量学习文本主题。实验表明,该文提出的方法不仅能够获得具有上下文语义的多原型词向量,也可以获得关联性更强的文本主题。

关键词多原型词向量;多义词;主题模型;神经网络

引用格式:曹中华,夏家莉,彭文忠,张志斌. 多原型词向量与文本主题联合学习模型[J]. 中文信息学报, 2020, 34(3): 64-71,106.

CAO Zhonghua, XIAJiali, PENG Wenzhong, ZHANG Zhibin. A Joint Learning Model for Multi-prototype Word Embedding and Document Topics[J].Journal of Chinese Information Processing,2020,34(3): 64-71,106.

全文链接:点击下载

✦基于远程监督的藏文实体关系抽取

作  者:王丽客,孙 媛,夏天赐

要:关系抽取任务是对句子中的实体对进行关系分类。基于远程监督的关系抽取是用预先构建的知识库来对齐朴素文本,自动标注数据,在一定程度上减少了人工标注的成本,缓解了藏文材料语料不足的问题。但是基于远程监督的实体关系抽取还存在错误标记、提取特征时出现噪声等问题。该文用远程监督方法进行藏文实体关系抽取,基于已经构建的藏文知识库,利用分段卷积神经网络结构,加入语言模型和注意力机制来改善语义歧义问题以及学习句子的信息;在训练过程中加入联合得分函数来动态修正错误标签问题。实验结果表明改进的模型有效提高了藏文实体关系抽取的准确率,且优于基线模型效果。

关键词藏文实体关系抽取;语言模型;注意力机制

引用格式:王丽客,孙媛,夏天赐. 基于远程监督的藏文实体关系抽取[J]. 中文信息学报, 2020, 34(3): 72-79. 

WANG Like, SUN Yuan, XIA Tianci. Distant Supervision for Tibetan Entity Relation Extraction[J].Journal of Chinese Information Processing,2020, 34(3): 72-79.

全文链接:点击下载

✦基于边界识别与组合的裁判文书证据抽取方法研究

作  者:杨 健,黄瑞章,丁志远,陈艳平,秦永彬 

要:裁判文书中的证据是法官量刑的基础。通过证据抽取可以对案件审判质量进行评估,从而支撑“智慧法院”建设。裁判文书中的证据大多数都比较长且存在嵌套现象,例如,“张X的身份证复印件”中的 “身份证复印件”,而传统的命名实体识别模型BiLSTM-CRF对较长实体和嵌套实体的识别性能较低。为了解决因裁判文书中的证据长度较长和嵌套现象而导致证据抽取性能较低的问题,该文提出了一种基于边界识别与组合的证据抽取模型。该模型首先使用BiLSTM-CRF模型识别证据的开始边界和结束边界;然后组合开始边界和结束边界,形成携带大量丰富细粒度边界信息的候选证据;最后使用基于三通道的多核CNN模型,融合细粒度的边界信息特征,对候选证据进行筛选,识别候选证据中正确的证据。实验结果表明,该文提出的模型能有效地抽取裁判文书中的证据。

关键词裁判文书;证据抽取;智慧法院;边界识别与组合

引用格式:杨健,黄瑞章,丁志远,陈艳平,秦永彬. 基于边界识别与组合的裁判文书证据抽取方法研究[J]. 中文信息学报, 2020, 34(3): 80-87.

YANG Jian, HUANG Ruizhang, DING Zhiyuan, CHEN Yanping, QIN Yongbin. Extracting Evidences from Judgment Document via Entity Boundary Detection[J].Journal of Chinese Information Processing,2020, 34(3): 80-87.

全文链接:点击下载

情感分析与社会计算

✦ 基于句法规则和HowNet的商品评论细粒度观点分析

作  者:韦婷婷,陈伟生,胡勇军,骆 威,包先雨

要:该文提出一种基于句法规则和HowNet词典的商品评论细粒度观点分析方法,主要包括三个模块:评价对象抽取、评价对象—评价词对抽取、评价对象总体观点得分计算。具体思路为:首先,结合词性标注和频繁项集方法构建一个初始的评价对象词典,便于重用和修正商品的总体评价维度;其次,基于爬取的电商评论文本真实数据设计了评价对象—评价词对抽取规则;最后,借助HowNet词典分别计算不同评价维度的观点综合得分,进而对比同一商品不同品牌在各个维度下的总体观点评价,该方法在商品评论语料集上验证了有效性。

关键词:商品评论;细粒度观点分析;句法规则;HowNet

引用格式:韦婷婷,陈伟生,胡勇军,骆威,包先雨. 基于句法规则和HowNet的商品评论细粒度观点分析[J]. 中文信息学报, 2020, 34(3): 88-98.

WEI Tingting, CHEN Weisheng, HU Yongjun, LUO Wei, BAO Xianyu. Fine-grained Opinion Analysis of Product Reviews Based on Syntactic Rules and HowNet[J].Journal of Chinese Information Processing,2020, 34(3): 88-98.

全文链接:点击下载

自然语言处理应用

✦ 基于非对称孪生网络的新闻与案件相关性分析

作  者:赵承鼎,郭军军,余正涛,黄于欣,刘 权,宋 燃

摘  要:该文的研究工作针对硬笔汉字篇章书写练习的智能评价与指导需求展开。在PAD等数字录入设备支持的联机书写状态下,以记录书写笔迹的时序点集为依据,先实现分行割字,再进行行水平、行间距稳定性、行间距均匀性、字间距均匀性和左对齐等的计算并获得特征参量。最终通过专家经验赋权法给出直观的书写质量评价结果。实验表明,该系统可以对篇章书写质量给出较符合主观习惯的评价,能够用于指导书写者进行汉字篇章书写练习。

关键词:非对称孪生网络;案件要素;相关性分析

引用格式:赵承鼎,郭军军,余正涛,黄于欣,刘权,宋燃. 基于非对称孪生网络的新闻与案件相关性分析[J]. 中文信息学报, 2020, 34(3): 99-106.

ZHAO Chengding, GUOJunjun, YU Zhengtao, HUANG Yuxin, LIU Quan, SONG Ran. Correlation Analysis of News and Cases Based on Unbalanced Siamese Network[J].Journal of Chinese Information Processing,2020, 34(3): 99-106.

全文链接:点击下载

✦ 面向法律文书的量刑预测方法研究

作  者:谭红叶,张博文,张 虎,李 茹

摘  要:大规模法律文书数据为智能司法审判研究提供了重要的数据基础。量刑预测是智能司法审判中的一个关键环节,对维护司法审判的公平与公正具有重要意义。该文首先基于区间划分和多模型投票方法进行了量刑预测初探,发现区间划分策略可以有效缓解刑期类别众多和数据不平衡问题;在此基础上,又采用基于量刑属性的预测方法来充分理解量刑情节。在CAIL2018评测数据上的实验表明:该文所提出的两种方法,性能明显超过其他基线系统。

关键词:量刑预测;区间划分;多模型投票;量刑属性

引用格式:谭红叶,张博文,张虎,李茹. 面向法律文书的量刑预测方法研究[J]. 中文信息学报, 2020, 34(3): 107-114.

TAN Hongye, ZHANG Bowen, ZHANG Hu, LI Ru. Automatic Sentencing Prediction for Legal Texts[J].Journal of Chinese Information Processing,2020, 34(3): 107-114.

全文链接:点击下载

 

640?wx_fmt=jpeg

↑点开查看清晰大图  


长按识别下图二维码

获取中文信息处理领域
640?wx_fmt=gif

点击|阅读原文|获取当期全文


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK