14

迁移学习的应用:跨领域欺诈检测

 3 years ago
source link: https://zhuanlan.zhihu.com/p/340058927
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

迁移学习的应用:跨领域欺诈检测

大多数迁移学习的研究都在CV和NLP上进行,那么在其他场景怎么应用迁移学习呢?

本期我们将为大家介绍一个适合迁移学习的场景:跨领域欺诈检测。

这篇文章[1]发表在数据挖掘顶会WWW20上,主要作者团队来自中国科学院计算所与蚂蚁金服。文章相关链接:

pdf

背景介绍

随着信息技术的发展,电商越来越流行。一个大的电商系统每天服务于成千上万的用户和商品,提供给他们方便、快捷、可信赖的服务。然而,在线交易欺诈也变得越来越严重,这让电商金融面临极大的风险,造成上亿的经济损失。什么是欺诈交易呢?比如欺诈者使用一张被盗的卡片进行支付(盗卡欺诈),欺诈者直接使用盗用的账户进行交易(盗账户欺诈)。

因此欺诈检测(检测当前支付是否可能为欺诈交易)也变得尤为重要。传统的一些欺诈检测方法比如使用GBDT、SVM等方法来判别当前交易是否为欺诈样本。但是这些方法没有考虑到时序信息对当前交易的帮助,比如一个盗卡欺诈前可能会发生一些别的行为,修改信用卡信息等等。因此利用时序信息进行欺诈检测变得尤为重要,基于时序的欺诈检测如下图所示,历史时间和当前支付事件都包含一些字段,比如卡号、IP地址、银行、事件类型等等,目标就是判断当前支付事件是否为欺诈事件。

VzEriyN.jpg!mobile

针对基于序列的欺诈检测,这篇文章提出了层次可解释网络进行时序建模,且增强了模型的可解释性。

东南亚的电商系统Lazada覆盖东南亚多个国家,但是其中一些国家的数据少,导致很难学到一个很好的欺诈检测器,所以很自然地,这篇文章提出了跨领域欺诈检测,如何利用数据多的国家帮助数据少的国家学习更好的欺诈检测器。这篇文章提出了一种针对欺诈检测问题通用的迁移学习框架,可以用于各种基于embedding的模型。

方法介绍

层次可解释网络

NZBze2i.jpg!mobile

层次可解释网络结构如上图所示,首先建模事件的表示,这里使用一种可解释的FM从多个字段中获得事件的表示,再使用attention的机制将历史多个事件的表示聚合成序列的表示,和当前支付事件的表示拼接送入一个MLP,得到一个预测值。这里不对HEN的结构做过多介绍,具体公式可以参考原文。另外对关于基于时序的欺诈检测建模感兴趣的可以参考[2,3]。

通用迁移学习框架

EreqQb3.jpg!mobile

迁移学习框架如上图所示。这里的跨领域欺诈检测问题包含一个源领域和一个目标领域,通常源领域包含充足的数据,目标领域只包含少量样本。这里主要介绍如何设计这个结构。

  • 不同国家的一些字段的值是不共享的,比如IP地址、银行。另外即使一些字段共享,所表示的语义可能也不同,比如某个邮箱在国家A表现出高风险,在国家B表现出低风险。因此将embedding层分成了domain-shared和domain-specific。
  • 不同国家的欺诈事件表现出来的历史序列不同。每个国家对于电商平台有着不同的规定,导致具体的操作流程有所不同。比如有的国家的盗卡前得修改一些信息,另外一些国家可能不用。另外不同欺诈团伙的作案流程也可能不同。所以这里对序列的建模也分为domain-shared和domain-specific。
  • 通过前面两步得到了domain-shared和domain-specific的表示,避免人为设置相加的权重,这里我们使用一种domain attention的机制。
  • 最后的MLP的输入为source和target样本,特征分布上存在一定差异,可能导致源领域上过拟合,目标领域上效果不佳,因此这里采用一种contrastive DA loss。

这里只介绍设计的思路,具体的公式参考原文。注意上面的迁移学习框架并没有定义每个模块必须是什么,behavior sequence extractor可以是任意结构,可以是HEN的行为序列提取器,也可以是别的结构,比如直接按照wide & deep,使用全连接层。

实验效果

这篇文章使用企业数据,包含4个国家,如下所示。从图中可以看出国家C4的样本总数最少,并且欺诈样本比例最高,所以以C4作为目标领域,其他三个国家作为源领域。从表格中可以看到,不同国家的黑白样本比例不同,平均历史长度也不同,也反映了不同国家的数据存在领域偏移(domain shift)。

B3m6Nny.jpg!mobile

这篇文章首先测试了HEN在单领域欺诈检测的效果,可以看出HEN在四个国家的数据上相比baselines都有所提升:

RrIFjaV.jpg!mobile

这篇文章又将迁移学习框架用于5个base model,如下图所示,可以看出这篇文章提出的迁移学习框架针对大多数base model都适用。

Rvqm6fv.jpg!mobile

总结

这篇文章提出了跨领域欺诈检测,并且提出了一种合适的解决方法,解决了欺诈检测中数据不足的问题。在欺诈检测中的迁移学习应用和在CV和NLP的公开数据集上研究迁移学习不同,需要更多地考虑落地场景的特点,去设计算法。

[1] Zhu Y, Xi D, Song B, et al. Modeling Users’ Behavior Sequences with Hierarchical Explainable Network for Cross-domain Fraud Detection[C]//Proceedings of The Web Conference 2020. 2020: 928-938.

[2] Xi D, Zhuang F, Song B, et al. Neural Hierarchical Factorization Machines for User's Event Sequence Analysis[C]//Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. 2020: 1893-1896.

[3] Xi D, Song B, Zhuang F, et al. Modeling the Field Value Variations and Field Interactions Simultaneously for Fraud Detection[C]. AAAI2021.


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK