8

论文浅尝 - EMNLP2020 | ConceptBert:视觉问题回答的概念感知表示

 3 years ago
source link: https://mp.weixin.qq.com/s?__biz=MzU2NjAxNDYwMg%3D%3D&%3Bmid=2247491111&%3Bidx=1&%3Bsn=147d808e041280eae1c6212f21146ffc
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

笔记整理 | 陈卓,浙江大学计算机科学与技术系,博士研究生

研究方向 | 知识图谱/图神经网络/多模态

Fr6Zjq.png!mobile

论文链接: https://www.aclweb.org/anthology/2020.findings-emnlp.44.pdf

代码: https://github.com/ZiaMaryam/ConceptBERT

发表会议:EMNLP 2020

任务核心ideas

IzuEbiM.png!mobile

模型概览

Nraq2u.png!mobile

流程如下:

  • 得到对应模态的嵌入表示

  • 通过两个并行模态融合模块

    • 视觉-语言(输出2个向量)

    • 知识-语言(输出1个向量)

  • 聚合三种向量

    • 带有语言信息的视觉向量

    • 带有视觉信息的语言向量

    • 带有外部知识的语言向量

  • 分类器进行答案分类

背景知识

AB3Irur.png!mobile

借鉴AAAI2020的一篇文章( Commonsense knowledge base completion with structural and semantic context )中所提到的ConceptNet embedding 作为I2020 常识概念图中的实体表示

z6fMRrN.png!mobile

借鉴NIPS2019中一篇文章中的多模态交叉attention方法,交叉视觉和语言两条stream分别使用了自己的query和来自另一边的key和value向量,进行信息融合

模型方法

输入模块:

yAn6VzR.png!mobile

编码模块:

remMzaJ.png!mobile

包括:

1:图片与bert的联合编码

2:bert与Kgembedding的联合编码

3:3个编码方式的聚合

实验

iyQj22e.png!mobile

作者在OK-VQA数据集上达到了sota,但是在VQA标准数据集VQA2.0上并没有达到。主要原因是因为该方法侧重于常识与背景知识,在trick上不如当前SOTA的VQA模型(效果接近76%)。

同时,该论文避开了FVQA数据集,猜测原因是在该数据集上表现不佳(该数据上大部分方法都是基于pipeline,这种end2end的方法不好去对标)

总结与灵感

  • 常识知识库某种程度上可增强许多VQA任务,哪怕不是显式地需要外部知识

  • 多模态任务中以图的形式引入外部知识依然有很大的潜力可以挖掘

  • 预训练fine-tune +(交叉)注意力机制 + 外部知识 + KG图结构 - - > 信息最大化

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

6nUNbqm.jpg!mobile

点击 阅读原文 ,进入 OpenKG 网站。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK