《中文信息学报》新刊概览∣ 2021年第2期（35卷第2期）

JCIP 中文信息学报 2021-03-19 07:48

↑点开查看清晰大图

综述

✦ 基于深度学习的流行度预测研究综述

作者：曹婍，沈华伟，高金华，程学旗

摘要：在线社交网络中的消息流行度预测研究，对推荐、广告、检索等应用场景都具有非常重要的作用。近年来，深度学习的蓬勃发展和消息传播数据的积累，为基于深度学习的流行度预测研究提供了坚实的发展基础。现有的流行度预测研究综述，主要是围绕传统的流行度预测方法展开的，而基于深度学习的流行度预测方法目前仍未得到系统性地归纳和梳理，不利于流行度预测领域的持续发展。鉴于此，该文重点论述和分析现有的基于深度学习的流行度预测相关研究，对近年来基于深度学习的流行度预测研究进行了归纳梳理，将其分为基于深度表示和基于深度融合的流行度预测方法，并对该研究方向的发展现状和未来趋势进行了分析展望。

关键词：流行度预测；深度学习；信息传播；综述

引用格式：曹婍,沈华伟,高金华,程学旗. 基于深度学习的流行度预测研究综述[J]. 中文信息学报, 2021, 35(2): 1-18,32.
CAO Qi, SHEN Huawei, GAO Jinhua, CHENG Xueqi. Survey on Deep Learning Based Popularity Prediction[J]. Journal of Chinese Information Processing, 2021, 35(2):1-18,32.

全文链接：点击下载

✦ 社会网络用户心理健康自动评估研究综述

作者：李静，刘德喜，万常选，刘喜平，邱祥庆，鲍力平，朱廷劭

摘要：心理健康问题正迅速成为世界范围内最严重和最普遍的公共卫生问题之一。社会网络的兴起与普及带来大量与社会网络用户心理状态相关的数据。近年来，利用社会网络数据自动评估检测用户心理健康的研究吸引着越来越多的学者，取得了不少成果，但未见对这些成果进行总结分析的工作。该文对社会网络用户心理健康自动评估的相关文献进行评述: 在现有文献基础上总结归纳了心理健康自动评估的概念及界定；从评估任务、社会网络数据集构造、评估用到的特征等方面概述了社会网络用户心理健康自动评估的国内外研究现状；比较分析了现有自动评估方法的特点，包括基于特征工程的方法和基于深度学习的方法；总结了现有研究存在的问题和面临的挑战，包括评估性能问题、数据质量问题、隐私伦理问题、原因抽取问题和自动干预问题等。未来的研究应该结合其他数据流，并需要患者、临床医生和数据科学家之间开展更大的合作，以使机器学习在心理健康问题的原因提取、预防疏导等方面得到新的应用。

关键词：社会网络；心理健康；自动评估

引用格式：李静,刘德喜,万常选,刘喜平,邱祥庆,鲍力平,朱廷劭. 社会网络用户心理健康自动评估研究综述[J]. 中文信息学报, 2021, 35(2): 19-32.
LI Jing, LIU Dexi, WAN Changxuan, LIU Xiping, QIU Xiangqing, BAO Liping, ZHU Tingshao. A Review on Automatic Assessment of Mental Health for Social Network Users[J]. Journal of Chinese Information Processing, 2021, 35(2):19-32.

全文链接：点击下载

语言资源建设

✦ 基于维基百科的冬奥会概念下的低频词条双语迭代扩展

作者：王星，陶明阳，侯磊，于济凡，单力秋，张馨如，陈吉

摘要：随着2022年北京冬奥会的临近，有必要构建一个与冬奥会相关的垂直领域知识图谱，但目前网络上没有较完整的冬奥会相关术语集，因此，需要用集合扩展的方法对冬奥会术语集进行补充。近年来，集合扩展的方法主要基于Word2Vec进行研究，但扩展平均词频较低的冬奥会中文领域时效果并不理想。该文提出了中英文双语迭代扩展的方法，利用数量多、词频较高的英文语料库和中英文跨语言同义词数据集解决中文数据集平均质量较低的问题。该文使用维基百科中冬奥会领域相关的词条组成的数据集进行实验。实验结果表明，与其他集合扩展方法相比，该文提出的扩展方法扩展出的新词质量提升了12%以上。

关键词：集合扩展；低频词；迭代扩展

引用格式：王星,陶明阳,侯磊,于济凡,单力秋,张馨如,陈吉. 基于维基百科的冬奥会概念下的低频词条双语迭代扩展[J]. 中文信息学报, 2021, 35(2): 33-40,51.
WANG Xing, TAO Mingyang, HOU Lei, YU Jifan, SHAN Liqiu, ZHANG Xinru, CHEN Ji. Bilingual Iterative Extension of Low Frequency Terms via Winter Olympics Entry in Wikipedia[J]. Journal of ChineseInformation Processing, 2021, 35(2): 33-40,51.

全文链接：点击下载

✦ 自然语言显式命题自动识别和解析方法

作者：刘璐，彭诗雅，玉郴，于东

摘要：自然语言中包含很多显式命题，正确理解这些命题是理解文本信息的关键。正确识别显式命题并解析其中的关键成分有助于理清语言中的逻辑关系、辅助自然语言理解。该文基于百度百科数据构建了自然语言显式命题标注数据集，并提出两个研究任务: 自然语言显式命题自动识别和命题关键成分解析。其中，显式命题自动识别任务判断一个自然语言句子是否为命题；显式命题关键成分解析任务从已获取的命题中解析出支撑该命题成立的关键成分。针对任务一，构建基于BERT的二分类模型；针对任务二，构建基于BERT-BiLSTM-CRF的序列标注模型。实验结果表明，模型在任务一的正确率达到74.95%，超过基线模型15.30%；在任务二的F值达到90.74%，超过基线模型17.69%。该文为下一步研究提供了可靠的标注数据集和基线方法。

关键词：显式命题；显式命题自动识别；命题关键成分解析

引用格式：刘璐,彭诗雅,玉郴,于东. 自然语言显式命题自动识别和解析方法[J]. 中文信息学报, 2021, 35(2): 41-51.
LIU Lu, PENG Shiya, YU Chen, YU Dong. Automatic Recognition and Analysis ofExplicit Propositions in Natural Language[J]. Journal of Chinese Information Processing, 2021, 35(2): 41-51.

全文链接：点击下载

机器翻译

✦ 基于递进式半知识蒸馏的神经机器翻译

作者：周孝青，段湘煜，俞鸿飞，张民

摘要：神经机器翻译（NMT）模型通常具有庞大的参数量，例如，Transformer在词表设为3万时有将近1亿的神经元，模型的参数量越大，模型越难优化，且存储模型的资源需求也越高。该文提出了一种压缩方法，用于将复杂且参数量大的NMT模型压缩为精简参数量小的NMT模型。该文同时提出半知识蒸馏方法和递进式半知识蒸馏方法，其中半知识蒸馏是从参数多、性能好的教师模型中获取半部分的权重作为精简、参数少的学生模型训练的起点；递进式半知识蒸馏方法指运用过一次半知识蒸馏方法压缩以后，再把当前的半知识蒸馏压缩的模型作为新的教师模型，再次运用半知识蒸馏方法得到全压缩模型。在广泛使用的中英和日英数据集上进行实验，结果表明，该方法对NMT系统有积极影响。在日英数据集上，该文方法的最佳性能比基准模型高2.16个BLEU值，比词级别知识蒸馏方法高1.15个BLEU值，并且高于句子级别的知识蒸馏方法0.28个BLEU值。

关键词：机器翻译；模型压缩；知识蒸馏

引用格式：周孝青,段湘煜,俞鸿飞,张民. 基于递进式半知识蒸馏的神经机器翻译[J]. 中文信息学报, 2021, 35(2): 52-60.
ZHOU Xiaoqing, DUAN Xiangyu, YU Hongfei, ZHANG Min. Progressive Semi-Knowledge Distillation for Neural Machine Translation[J]. Journal of Chinese Information Processing, 2021, 35(2): 52-60.

全文链接：点击下载

信息抽取与文本挖掘

✦基于深度学习的中文短语复述抽取技术研究

作者：颜欣，张宇，潘晓彤，刘作鹏，刘挺

摘要：复述抽取是自然语言处理任务中的一个重要分支，高质量的复述资源对于提升信息检索、问答系统、机器翻译等任务的效果有很大帮助。该文将任务限定在中文短语复述抽取，提出了基于2BiLSTM+CNN+CRF的序列标注模型，用于单语中文语料短语划分，通过若干过滤规则获取优质中文短语。之后又提出了基于表示学习的候选复述获取方法，通过BattRAE模型获取中文短语向量表示，并使用余弦相似度计算短语间的语义距离。该文根据语义距离对短语对进行过滤，将语义距离相近的短语视作候选的复述短语，再通过规则过滤掉错误的候选复述。在最后的结果中，随机抽取出500条短语复述资源进行人工评价，达到了0.814的精确度以及0.826的MRR值。

关键词：复述抽取；短语划分；表示学习

引用格式：颜欣,张宇,潘晓彤,刘作鹏,刘挺. 基于深度学习的中文短语复述抽取技术研究[J]. 中文信息学报, 2021, 35(2): 61-68,77.
YAN Xin, ZHANG Yu, PAN Xiaotong, LIU Zuopeng, LIU Ting. Deep Learning Based Chinese Phrasal Paraphrase Extraction[J]. Journal of Chinese Information Processing, 2021, 35(2): 61-68,77.

全文链接：点击下载

✦基于层次混合注意力机制的文本分类模型

作者：孙新，唐正，赵永妍,张颖捷

摘要：文本分类是自然语言处理领域的核心任务之一，深度学习的发展给文本分类带来更广阔的发展前景。针对当前基于深度学习的文本分类方法在长文本分类中的优势和不足，该文提出一种文本分类模型，在层次模型基础上引入混合注意力机制来关注文本中的重要部分。首先，按照文档的层次结构分别对句子和文档进行编码;其次，在每个层级分别使用注意力机制。句编码时在全局目标向量基础上同时利用最大池化提取句子特定的目标向量，使编码出的文档向量具有更加明显的类别特征，能够更好地关注到每个文本最具区别性的语义特征。最后，根据构建的文档表示对文档分类。在公开数据集和行业数据集上的实验结果表明，该模型对具有层次结构的长文本具有更优的分类性能。

关键词：文本分类;深度学习;注意力机制

引用格式：孙新,唐正,赵永妍,张颖捷. 基于层次混合注意力机制的文本分类模型[J]. 中文信息学报, 2021, 35(2): 69-77.
SUN Xin, TANG Zheng, ZHAO Yongyan, ZHANG Yingjie. Hierarchical Networks with Mixed Attention for Text Classification[J]. Journal of Chinese Information Processing, 2021, 35(2): 69-77.

全文链接：点击下载

✦融合通道特征的混合神经网络文本分类模型

作者：韩永鹏，陈彩，苏航，梁毅

摘要：基于卷积神经网络与循环神经网络的混合文本分类模型通常使用单通道词嵌入。单通道词嵌入空间维度低，特征表示单一，导致一维卷积神经网络不能充分学习文本的空间特征，影响了模型的性能。因此，该文提出一种融合通道特征的混合神经网络文本分类模型。该模型使用了双通道词嵌入丰富文本表示，增加了空间维度，在卷积的过程中融合了通道特征，优化了空间特征与时序特征的结合方式，最终提高了混合模型的分类性能。在IMDB、20NewsGroups、复旦中文数据集、THUC数据集上进行实验，该模型的分类准确率相比于传统卷积神经网络平均提升了1%，在THUC数据集上准确率最高提升了1.3%。

关键词：通道特征；神经网络；文本分类

引用格式：韩永鹏,陈彩,苏航,梁毅. 融合通道特征的混合神经网络文本分类模型[J]. 中文信息学报, 2021, 35(2): 78-88.
HAN Yongpeng, CHEN Cai, SU Hang,LIANG Yi. Hybrid Neural Network Text Classification Model with Channel Features[J]. Journal of Chinese Information Processing, 2021, 35(2): 78-88.

全文链接：点击下载

✦基于神经自回归分布估计的涉案新闻主题模型构建方法

作者：毛存礼，梁昊远，余正涛，郭军军，黄于欣，高盛祥

摘要：神经主题模型能有效获取文本的深层语义特征，但现有的神经主题模型忽略了外部知识对获取主题分布的帮助。因此，针对涉案主题分析任务，该文提出了一种基于神经自回归分布估计的涉案新闻主题模型构建方法。以案件要素作为外部知识对iDocNADEe模型进行了扩展，通过计算案件要素与主题词的相关度来构建注意力机制对iDocNADEe模型双向编码的隐状态进行加权，利用神经自回归算法计算加权后的主题词双向隐状态的自回归条件概率实现涉案新闻文本主题模型构建。实验结果表明，该文提出方法较基线模型困惑度降低了0.66%、主题连贯性提高了6.26%，并且在文档检索精确率方面也明显高于基线模型。

关键词：案件要素；iDocNADEe；注意力机制；神经自回归分布估计；涉案新闻；主题模型

引用格式：毛存礼,梁昊远,余正涛,郭军军,黄于欣,高盛祥. 基于神经自回归分布估计的涉案新闻主题模型构建方法[J]. 中文信息学报, 2021, 35(2): 89-98.

MAO Cunli, LIANG Haoyuan, YU Zhengtao, GUO Junjun, HUANG Yuxin, GAO Shengxiang. Topic Model of Judicial News Based on Neural Autoregressive Distribution Estimator[J]. Journal of Chinese Information Processing, 2021, 35(2): 89-98.

全文链接：点击下载

问答与对话

✦ U-Net：用于包含无答案问题的机器阅读理解的轻量级模型

作者：孙付，李林阳，邱锡鹏，刘扬，黄萱菁

摘要：处理机器阅读理解任务时，识别其中没有答案的问题是自然语言处理领域的一个新的挑战。该文提出U-Net模型来处理这个问题，该模型包括3个主要成分：答案预测模块、无答案判别模块和答案验证模块。该模型用一个U节点将问题和文章拼接为一个连续的文本序列，该U节点同时编码问题和文章的信息，在判断问题是否有答案时起到重要作用，同时对于精简U-Net的结构也有重要作用。与基于预训练的BERT不同，U-Net的U节点的信息获取方式更多样，并且不需要巨大的计算资源就能有效地完成机器阅读理解任务。在SQuAD 2.0中，U-Net的单模型F1得分72.6、EM得分69.3，U-Net的集成模型F1得分74.9、EM得分71.4，均为公开的非基于大规模预训练语言模型的模型结果的第一名。

关键词：机器阅读理解；SQuAD；注意力机制

引用格式：孙付,李林阳,邱锡鹏,刘扬,黄萱菁. U-Net:用于包含无答案问题的机器阅读理解的轻量级模型[J]. 中文信息学报, 2021, 35(2): 99-106.

SUN Fu, LI Linyang, QIU Xipeng, LIU Yang, HUANG Xuanjing. U-Net: Light weight Model for Machine Reading Comprehension with Unanswerable Questions[J].Journal of Chinese Information Processing,2021,35(2): 99-106.

全文链接：点击下载

✦ 基于知识拷贝机制的生成式对话模型

作者：李少博，孙承杰，徐振，刘秉权，季振洲，王明江

摘要：基于“编码—解码”结构的端到端生成式对话模型所生成的回复多样性差、信息量少，这在很大程度上阻碍了对话的进一步扩展和深入。而知识图谱作为一种高度结构化的知识，能够为对话提供相关知识以及话题转移关系，可以用来提升对话质量。因此，该文提出了一种基于知识拷贝机制的生成式对话模型，首先使用基于知识图谱的映射机制对对话内容进行处理，随后使用知识拷贝机制直接将知识图谱中的知识引入到生成的回复中，并使用注意力机制选择知识图谱中的信息来指导回复的生成。在“2019语言与智能技术竞赛”中的“知识驱动对话”数据集上，相较竞赛举办方提供的生成式基线模型，该文所提出模型生成的回复在字符级别的F1和多样性指标DISTINCT-1上分别有10.47%和4.6%的提升。

关键词：生成式对话模型；知识图谱；端到端

引用格式：李少博,孙承杰,徐振,刘秉权,季振洲,王明江. 基于知识拷贝机制的生成式对话模型[J]. 中文信息学报, 2021, 35(2): 107-115.

LI Shaobo, SUN Chengjie, XU Zhen, LIU Bingquan, JI Zhenzhou, WANG Mingjiang. Knowledge Copying Mechanism for Dialog Generation[J]. Journal of Chinese Information Processing, 2021, 35(2): 107-115.

全文链接：点击下载

情感分析与社会计算

✦ 融合多特征的分段卷积神经网络对象级情感分类方法

作者：周武，曾碧卿，徐如阳，杨恒，韩旭丽，程良伦

摘要：对象级情感分类旨在判断句子中特定对象的情感极性类别。在现有基于卷积神经网络的研究中，常在模型的池化层采用最大池化操作提取文本特征作为句子表示，该操作未考虑由对象所划分的上下文，因此无法得到更细粒度的对象上下文特征。针对该问题，该文提出一种融合多特征的分段卷积神经网络（multi-feature piecewise convolution neural network，MP-CNN）模型，根据对象将句子划分为两个部分作为上下文，并在池化层采用分段最大池化操作提取上下文特征。此外，该模型还将有助于情感分类的多个辅助特征融入其中，如词的相对位置、词性以及词在情感词典中的情感得分，并通过卷积操作计算词的注意力得分，有效判断对象的情感极性类别。最后在SemEval 2014数据集和Twitter数据集的实验中，取得了较基于传统机器学习、基于循环神经网络以及基于单一最大池化的卷积神经网络分类模型更好的分类效果。

关键词：多特征；分段；卷积神经网络；对象级情感分类

引用格式：周武,曾碧卿,徐如阳,杨恒,韩旭丽,程良伦. 融合多特征的分段卷积神经网络对象级情感分类方法[J]. 中文信息学报, 2021, 35(2): 116-124,132.
ZHOU Wu, ZENG Biqing, XU Ruyang, YANG Heng, HAN Xuli, CHENG Lianglun. Multi-Feature Piecewise Convolution Neural Network for Aspect-Based Sentiment Classification[J]. Journal of Chinese Information Processing, 2021, 35(2):116-124,132.

全文链接：点击下载

✦ 基于Transformer模型的商品评论情感分析

作者：杜朋，卢益清，韩长风

摘要：该文通过研究商品评论正、负向情感识别任务，基于Transformer模型，提出了一种结合多头自注意力层和卷积层的神经网络模型，其中多头自注意力层丰富了词语之间的关联关系，卷积操作进行特征的再提取和融合。通过和双向长期时记忆网络(bidirectional long short-term memory networks, BILSTM)、基于注意力机制的BILSTM网络、文本卷积神经网络(text convolutional neural networks, TEXTCNN)进行对比，实验证明，该文提出的模型在商品评论情感分类任务的最高准确率分别提高了4.12%、1.47%、1.36%，同时训练用时也大大缩减。

关键词：情感分析；多头自注意力机制；神经网络；商品评论

引用格式：杜朋,卢益清,韩长风. 基于Transformer模型的商品评论情感分析[J]. 中文信息学报, 2021, 35(2): 125-132.
DU Peng, LU Yiqing, Han Changfeng. Sentiment Analysis of Commodity Reviews Based on Transformer Model[J].Journal of Chinese Information Processing,2021,35(2):125-132.

全文链接：点击下载

文字处理

✦ 基于加权贝叶斯的脱机手写阿文单词识别

作者：许亚美，何继爱

摘要：针对手写阿拉伯单词书写连笔，且相似词较多的特点，该文提出一种新的脱机手写文字识别算法。该算法以固定组件为成分拆分阿拉伯单词，构建自组件特征至单词类别的加权贝叶斯推理模型。算法结合单词组件分割、多级混合式组件识别、组件加权系数估计等，计算单词类别的后验概率并得到单词识别结果。在IFN/ENIT库上的实验，获得了90.03%的单词识别率，证实组件分解对笔画连写具有鲁棒性，组件识别能提高相似词的辨别能力，而且该算法所需训练类别少，易向大词汇量识别扩展。

关键词：手写文字识别；阿拉伯文；单词识别；加权贝叶斯

引用格式：许亚美,何继爱. 基于加权贝叶斯的脱机手写阿文单词识别[J]. 中文信息学报, 2021, 35(2): 133-140.

XU Yamei, HE Ji'ai. Offline Handwritten Arabic Word Recognition Based on Weighted Bayesian[J]. Journal of Chinese Information Processing,2021,35(2):133-140.

全文链接：点击下载

↑点开查看清晰大图

长按识别下图二维码

获取中文信息处理领域

点击|阅读原文|获取当期全文

《中文信息学报》新刊概览∣ 2021年第2期（35卷第2期）

《中文信息学报》新刊概览∣ 2021年第2期（35卷第2期）

Recommend

如何在不规则多边形内均匀撒点的算法

细读《三国演义》：诸葛亮夏口调兵

xdm, 因为组内项目线上 Bug, 被扣绩效合理吗

人总要有点盲目的自信

《中文信息学报》新刊概览∣ 2019年第7期（33卷第7期）

怎样衡量指数的内在收益率？

霍乱时期的笑声

《中文信息学报》新刊概览∣ 2019年第8期（33卷第8期）

如何化解生活中的冲突？

说你普通却自信的她们

About Joyk