

《中文信息学报》新刊概览∣ 2020年第1期(34卷第1期)
source link: https://mp.weixin.qq.com/s?__biz=MzI2NjY1NDE3MQ%3D%3D&%3Bmid=2247484452&%3Bidx=1&%3Bsn=62716cebee3db167e27a68936b4bb2b1
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

《中文信息学报》新刊概览∣ 2020年第1期(34卷第1期)
↑点开查看清晰大图
语言分析与计算
✦ 汉语谐音与语义双关语的认知神经加工差异——ERP证据
作 者:杨思琴,徐文玉,江铭虎,张骁晨
摘 要:该文运用事件相关电位技术,观测汉语谐音双关语与语义双关语两者是否存在认知神经加工上的差异。结果发现,语义双关语的正确率明显低于谐音双关语以及不符合逻辑语篇的正确率。谐音双关语组、语义双关语组和不合逻辑语篇引发的脑电波数据在300~900ms之间存在显著差异。其中,语义双关语和不合逻辑语篇都引发了N400效应。脑电波形图和脑电波地形图显示,前者引发的N400效应略微晚于后者引发的N400效应,但数据统计的结果不显著。在600~900ms,谐音双关语引发了P600效应。研究由此推论: 汉语谐音双关语与语义双关语认知层面的加工差异与双关语的呈现形式和表达效果密切相关。
关键词:双关语;N400;P600
引用格式:杨思琴,徐文玉,江铭虎,张骁晨. 汉语谐音与语义双关语的认知神经加工差异——ERP证据[J]. 中文信息学报, 2020, 34(1): 1-9.
YANG Siqin, XU Wenyu, JIANG Minghu, ZHANG Xiaochen. The Difference of Cognitive Processing Between Phonetic Puns and Semantic Puns in Chinese: An ERP Evidence[J].Journal of Chinese Information Processing,2020, 34(1): 1-9.
全文链接:点击下载
✦ 从物性结构看“处所+N”复合词的词义与释义
作 者:宋作艳,孙 傲
摘 要:该文从物性结构角度分析了“处所+N”复合词中处所成分与中心成分之间的语义关系,发现单纯表事物存在之处的很少,多表示事物使用或者产生的地方,或兼而有之。隐含的谓词是名词的功用角色或施成角色,这些谓词应该出现在释义中,以揭示构词成分间的具体语义关系,阐明事物的命名理据。目前有些词的释义尚不完备,缺乏相应的谓词。研究还发现,在事物命名中功用、施成特征比处所更重要,功用构式、施成构式在定中词汇构式中层级更高。
关键词:复合词;物性结构;功用角色;施成角色;词汇构式
引用格式:宋作艳,孙傲. 从物性结构看“处所+N”复合词的词义与释义[J]. 中文信息学报, 2020, 34(1): 10-16.
SONG Zuoyan, SUN Ao. The Semantic Relationships in Place-Object Compounds: Qualia Structure Perspective[J].Journal of Chinese Information Processing,2020, 34(1): 10-16.
全文链接:点击下载
✦ 支持中文句法结构套叠的组合范畴语法
作 者:王庆江,张 琳
摘 要:词组入句时发生语法性质转变,词组的句法范畴就应该转换,这种转换依赖词组作为整体进入更大词组的结构需要。要解释这种现象,组合范畴语法应该增加相应的转换规则。从集合论角度看,汉语有名词—动词—形容词依次包含关系,由此可归纳基本句法结构之间的转类套叠。在类有定职的前提下,得出转类套叠对应的范畴转换规则,形成有范畴转换机制的组合范畴语法C2-CCG。研究表明这种基于词组本位的形式语法有希望解释中文句法中各种转类套叠。
关键词:组合范畴语法;结构套叠;范畴转换
引用格式:王庆江,张琳. 支持中文句法结构套叠的组合范畴语法[J]. 中文信息学报, 2020, 34(1): 17-22.
WANG Qingjiang, ZHANG Lin. Combinatory Categorial Grammar for Chinese Syntactic Structure Overlapping[J].Journal of Chinese Information Processing,2020, 34(1): 17-22.
全文链接:点击下载
语言资源建设
✦ 自动构建基于电视剧字幕和剧本的日常会话基础标注库
作 者:梁宇海,周 强
摘 要:真实对话数据量不足已经成为限制数据驱动的对话生成系统性能提升的主要因素,尤其是汉语语料。为了获得丰富的日常会话语料,可以利用字幕时间戳信息把英语电视剧的英文字幕及其对应的中文字幕进行同步,从而生成大量的汉英双语同步字幕。然后通过信息检索的方法把双语同步字幕的英文句子跟英语剧本的演员台词进行自动对齐,从而将剧本中的场景和说话者信息映射到双语字幕中,最后得到含有场景及说话者标注的汉英双语日常会话库。该文利用这种方法,自动构建了包含978 109对双语话语消息的接近人类日常会话的多轮会话数据库CEDAC。经过抽样分析,场景边界的标注准确率达到97.0%,而说话者的标注准确率也达到91.57%。该标注库为后续进行影视剧字幕说话者自动标注和多轮会话自动生成研究打下了很好的基础。
关键词:日常会话语料;电视剧剧本解析;双语字幕同步;剧本和字幕的自动对齐
引用格式:梁宇海,周强. 自动构建基于电视剧字幕和剧本的日常会话基础标注库[J]. 中文信息学报, 2020, 34(1): 23-33.
LIANG Yuhai, ZHOU Qiang. Automatic Construction of Annotated Daily Conversation Corpus Based on the Subtitles and Scripts of TV Plays[J].Journal of Chinese Information Processing,2020, 34(1): 23-33.
全文链接:点击下载
知识表示与知识获取
✦ 面向司法案件的案情知识图谱自动构建
作 者:洪文兴,胡志强,翁 洋,张 恒,王 竹,郭志新
摘 要:以法学知识为中心的认知智能是当前司法人工智能发展的重要方向。该文提出了以自然语言处理(NLP)为核心技术的司法案件案情知识图谱自动构建技术。以预训练模型为基础,对涉及的实体识别和关系抽取这两个NLP基本任务进行了模型研究与设计。针对实体识别任务,对比研究了两种基于预训练的实体识别模型;针对关系抽取任务,该文提出融合平移嵌入的多任务联合的语义关系抽取模型,同时获得了结合上下文的案情知识表示学习。在“机动车交通事故责任纠纷”案由下,和基准模型相比,实体识别的F1值可提升0.36,关系抽取的F1值提升高达2.37。以此为基础,该文设计了司法案件的案情知识图谱自动构建流程,实现了对数十万份判决书案情知识图谱的自动构建,为类案精准推送等司法人工智能应用提供语义支撑。
关键词:司法案件;知识图谱;实体识别;关系抽取
引用格式:洪文兴,胡志强,翁洋,张恒,王竹,郭志新. 面向司法案件的案情知识图谱自动构建[J]. 中文信息学报, 2020, 34(1): 34-44.
HONG Wenxing, HU Zhiqiang, WENG Yang, ZHANG Heng, WANG Zhu, GUO Zhixin. Automated Knowledge Graph Construction for Judicial Case Facts[J].Journal of Chinese Information Processing,2020, 34(1): 34-44.
全文链接:点击下载
民族、跨境及周边语言信息处理
✦ 乌兹别克语词干提取算法的比较研究
作 者:吾买尔江·买买提明,古丽尼格尔·阿不都外力,买合木提·买买提,卡哈尔江·阿比的热西提,吐尔根·依布拉音
摘要:黏着语的自然语言处理中,词干提取作为一项基础的预处理任务,对其他任务的性能影响较大。现有的乌兹别克语词干提取任务仍依赖基于规则的方法,且实验效果不太理想。该文将乌兹别克语词干提取任务视为序列标注问题进行处理,以字符为最小单位进行切分,分别构建了基于条件随机场(CRF)和门控循环单元网络(Bi-GRU)的乌兹别克语词干提取模型。实验结果表明,基于序列标注的乌兹别克语词干提取模型与基于规则的方法相比不仅降低了人工成本,而且在性能方面有较为显著的提升。
关键词:乌兹别克语;词干提取;序列标注
引用格式:吾买尔江·买买提明,古丽尼格尔·阿不都外力,买合木提·买买提,卡哈尔江·阿比的热西提,吐尔根·依布拉音. 乌兹别克语词干提取算法的比较研究[J]. 中文信息学报, 2020, 34(1): 45-50.
WUMAIERJIANG Maimaitiming, GULINIGEER Abuduwaili, MAIHEMUTI Maimaiti,KAHAERJIANG Abiderexiti, TUERGEN Yibulayin. A Comparative Study of Uzbek Stemming Algorithms[J].Journal of Chinese Information Processing,2020, 34(1): 45-50.
全文链接:点击下载
✦ 蒙古语长音频语音文本自动对齐的研究
作 者:牛米佳,飞 龙,高光来
摘要:目前,面向蒙古语的语音识别语音库资源相对稀缺,但存在较多的电视剧、广播等蒙古语音频和对应的文本。该文提出基于语音识别的蒙古语长音频语音文本自动对齐方法,实现蒙古语电视剧语音的自动标注,扩充了蒙古语语音库。在前端处理阶段,使用基于高斯混合模型的语音端点检测技术筛选并删除噪音段;在语音识别阶段,构建基于前向型序列记忆网络的蒙古语声学模型;最后基于向量空间模型,将语音识别得到的假设序列和参考音素序列进行句子级别的动态时间归整算法匹配。实验结果表明,与基于Needleman-Wunsch算法的语音对齐比较,该文提出的蒙古语长音频语音文本自动对齐方法的对齐正确率提升了31.09%。
关键词:蒙古语;语音端点检测;语音文本对齐;动态时间归整算法
引用格式:牛米佳,飞龙,高光来. 蒙古语长音频语音文本自动对齐的研究[J]. 中文信息学报, 2020, 34(1): 51-57.
NIU Mijia, FEI Long, GAO Guanglai. Research on Automatic Speech-Text Alignment for Long Audio of Mongolian[J].Journal of Chinese Information Processing,2020, 34(1): 51-57.
全文链接:点击下载
✦ 基于transformer神经网络的汉蒙机构名翻译研究
作 者:安苏雅拉,王斯日古楞
摘要:机构名翻译是机器翻译的研究内容之一,在机器翻译任务中机构名翻译的准确度,直接影响着翻译性能。在很多任务上,神经机器翻译性能优于传统的统计机器翻译性能,该文中使用基于transformer神经网络模型与传统的基于短语的统计机器翻译模型和改进后的基于语块的机器翻译模型做了对比试验。实验结果表明,在汉蒙机构名翻译任务上,基于transformer神经网络的汉蒙机构名翻译系统优于传统的基于语块的汉蒙机构名翻译系统,BLEU4值提高了0.039。
关键词:神经网络;汉蒙机器翻译; 机构名
引用格式:安苏雅拉,王斯日古楞. 基于transformer神经网络的汉蒙机构名翻译研究[J]. 中文信息学报, 2020, 34(1): 58-62.
AN Suyala,WANG Siriguleng. Chinese-Mongolian Organization Name Translation Based on Transformer[J].Journal of Chinese Information Processing,2020, 34(1): 58-62.
全文链接:点击下载
✦ 基于稳健词素序列和LSTM的维吾尔语短文本分类
作 者:沙尔旦尔·帕尔哈提,米吉提·阿不里米提,艾斯卡尔·艾木都拉
摘要:维吾尔语是一种派生类语言,其词是由词干和词缀连接而成的。其中,词干是有实际意义的词汇单元,词缀提供语法功能。该文提出了基于词干单元和长短期记忆(LSTM)网络的维吾尔语短文本分类技术。用基于词-词素平行训练语料的稳健词素切分和词干提取方法,从互联网下载的文本中提取其词干,以此构建词干序列文本语料库,并通过Word2Vec算法映射到实数向量空间。然后用LSTM网络作为特征选择和文本分类算法进行维吾尔语短文本分类实验,并得到95.48%的分类准确率。从实验结果看,对于维吾尔语等派生类语言而言,特别是对于带噪声的文本,基于词干的分类方法有更多优异的性能。
关键词:维吾尔语;文本分类;LSTM;形态学
引用格式:沙尔旦尔·帕尔哈提,米吉提·阿不里米提,艾斯卡尔·艾木都拉. 基于稳健词素序列和LSTM的维吾尔语短文本分类[J]. 中文信息学报, 2020, 34(1): 63-70.
SARDAR Parhat, MIJIT Ablimit, ASKAR Hamdulla. Uyghur Short Text Classification Based on Robust Morpheme Sequence and LSTM[J].Journal of Chinese Information Processing,2020, 34(1): 63-70.
全文链接:点击下载
✦ 基于多任务学习的汉语基本篇章单元和主述位联合识别
作 者:葛海柱,孔 芳
摘 要:基本篇章单元(elementary discourse units,EDU)识别是构建篇章结构的基础,对篇章分析意义重大。从篇章衔接性视角来看,篇章话题结构理论认为,每个EDU都由要表达信息的起始点(主位)和传达的新信息(述位)两部分构成。因此,EDU识别与主述位识别任务的关系密切。基于此,该文给出了一个基于多任务学习的汉语基本篇章单元和主述位联合识别方法。该方法利用双向长短时记忆网络和图卷积网络对基本单元进行序列化和结构化拓扑信息的表征,再利用多任务学习框架让两个任务共享参数,借助不同任务间的相关性来提升模型的性能。实验结果表明,基于多任务学习的EDU和主述位识别性能均优于单任务学习模型中各自的性能,其中基本篇章单元识别的F1值达到91.90%,主述位识别的F1值达到85.65%。
关键词:多任务学习;基本篇章单元;主位;述位
引用格式:葛海柱,孔芳. 基于多任务学习的汉语基本篇章单元和主述位联合识别[J]. 中文信息学报, 2020, 34(1): 71-79.
GE Haizhu, KONG Fang. Chinese Elementary Discourse Unit and Theme-Rheme JointDetection Based on Multi-task Learning[J].Journal of Chinese Information Processing,2020, 34(1): 71-79.
全文链接:点击下载
信息抽取与文本挖掘
✦ 基于胶囊网络的药物相互作用关系抽取方法
作 者:刘宁宁,琚生根,熊 熙,王婧妍,张 芮
摘 要:药物相互作用是指药物之间存在的抑制或促进等作用。针对目前药物关系抽取模型在长语句中抽取效果较差以及高层特征信息丢失的问题,该文提出了一种结合最短依存路径的胶囊网络关系抽取模型,该方法首先根据原语句解析出两个药物之间的最短依存路径,然后利用双向长短期记忆网络分别获取原语句和最短依存路径的低层语义表示,再将两者结合输入到胶囊网络中,利用胶囊网络的动态路由机制,动态地决定低层胶囊向高层胶囊传送的信息量,避免了高层特征信息丢失的问题,从而提升抽取效果。在DDIExtraction 2013药物相互作用关系抽取任务上的实验结果表明,该文方法的F1值优于目前最优方法1.17%。
关键词:药物关系抽取;最短依存路径;双向长短期记忆网络;胶囊网络
引用格式:刘宁宁,琚生根,熊熙,王婧妍,张芮. 基于胶囊网络的药物相互作用关系抽取方法[J]. 中文信息学报, 2020, 34(1): 80-86,96.
LIU Ningning, JU Shenggen, XIONG Xi,WANG Jingyan,ZHANG Rui. Drug-Drug Relationship Extraction Based on Capsule Networks[J].Journal of Chinese Information Processing,2020, 34(1): 80-86,96.
全文链接:点击下载
✦ 融入丰富信息的高性能神经实体链接
作 者:李明扬,姜嘉伟,孔 芳
摘 要:歧义的存在使得实体链接任务需要大量信息的支撑。已有研究主要使用两类信息,即实体表述所在的文本信息和外部的知识库信息。但已有研究对信息的使用存在以下两个问题: 首先,最新通用知识库规模更大、覆盖面更广,但目前的实体链接模型却未从中受益,其性能没有得到相应提升;其次,表述所在的文本信息既包含表述所处的局部上下文信息,也包含文本主题之类的全局信息,文本自身信息的利用率还需进一步提高。针对第一个问题,该文给出了一个融合文本相关度和先验知识的实体候选集抽取策略,提高了对知识库中有效知识的提取;针对第二个问题,该文给出了一个融合局部和全局信息的自注意力机制与高速网络相结合的神经网络实体链接框架。在6个实体链接公开数据集上的对比实验表明了该文提出方案的有效性,在最新的通用知识库上该文给出的实体链接模型取得了目前最好的性能。
关键词:实体链接;自注意力机制;高速网络
引用格式:李明扬,姜嘉伟,孔芳. 融入丰富信息的高性能神经实体链接[J]. 中文信息学报, 2020, 34(1): 87-96.
LI Mingyang, JIANG Jiawei, KONG Fang. Towards Better Neural Entity Linking via Rich Information[J].Journal of Chinese Information Processing,2020, 34(1): 87-96.
全文链接:点击下载
信息检索与问答系统
✦模仿排序学习模型
作 者:曾 玮,俞蔚捷,徐 君,兰艳艳,程学旗
摘要:文档排序一直是信息检索(IR)领域的关键任务之一。受益于马尔科夫决策过程强大的建模能力,以及强化学习方法强大的求解能力,近年来基于强化学习的排序模型被提出并取得了良好效果。然而,由于候选文档中会包含大量的不相关文档,导致基于“试错”的强化学习方法存在效率低下的问题。为解决上述问题,该文提出了一种基于模仿学习的排序学习算法IR-DAGGER,其基于文档标注信息构建专家策略,在保证文档排序精度的同时提高了算法的学习效率。为了测试IR-DAGGER的性能,该文基于面向相关性排序任务的OHSUMED数据集和面向多样化排序的TREC数据集进行了实验,实验结果表明IR-DAGGER在上述两个数据集上均提升了文档排序的精度和效率。
关键词:排序;模仿学习;强化学习
引用格式:曾玮,俞蔚捷,徐君,兰艳艳,程学旗. 模仿排序学习模型[J]. 中文信息学报, 2020, 34(1): 97-105.
ZENG Wei, YU Weijie, XU Jun, LAN Yanyan, CHENG Xueqi. Imitation Learning to Rank[J].Journal of Chinese Information Processing,2020, 34(1): 97-105.
全文链接:点击下载
情感分析与社会计算
✦ 基于神经主题模型的对话情感分析
作 者:王建成,徐 扬,刘启元,吴良庆,李寿山
摘要:对话情感分析旨在识别出一段对话中每个句子的情感倾向,其在电商客服数据分析中发挥着关键作用。不同于对单个句子的情感分析,对话中句子的情感倾向依赖于其在对话中的上下文。目前已有的方法主要采用循环神经网络和注意力机制建模句子之间的关系,但是忽略了对话作为一个整体所呈现的特点。建立在多任务学习的框架下,该文提出了一个新颖的方法,同时推测一段对话的主题分布和每个句子的情感倾向。对话的主题分布,作为一种全局信息,被嵌入到每个词以及句子的表示中。通过这种方法,每个词和句子被赋予了在特定对话主题下的含义。在电商客服对话数据上的实验结果表明,该文提出的模型能充分利用对话主题信息,与不考虑主题信息的基线模型相比,Macro-F1值均有明显提升。
关键词:对话;情感分析;主题模型
引用格式:王建成,徐扬,刘启元,吴良庆,李寿山. 基于神经主题模型的对话情感分析[J]. 中文信息学报, 2020, 34(1): 106-112.
WANG Jiancheng, XU Yang, LIU Qiyuan, WU Liangqing, LI Shoushan. Dialog Sentiment Analysis with Neural Topic Model[J].Journal of Chinese Information Processing, 2020, 34(1): 106-112.
全文链接:点击下载
↑点开查看清晰大图
长按识别下图二维码
获取中文信息处理领域点击|阅读原文|获取当期全文
Recommend
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK