迁移学习的应用：跨领域欺诈检测

大多数迁移学习的研究都在CV和NLP上进行，那么在其他场景怎么应用迁移学习呢？

本期我们将为大家介绍一个适合迁移学习的场景：跨领域欺诈检测。

这篇文章[1]发表在数据挖掘顶会WWW20上，主要作者团队来自中国科学院计算所与蚂蚁金服。文章相关链接：

背景介绍

随着信息技术的发展，电商越来越流行。一个大的电商系统每天服务于成千上万的用户和商品，提供给他们方便、快捷、可信赖的服务。然而，在线交易欺诈也变得越来越严重，这让电商金融面临极大的风险，造成上亿的经济损失。什么是欺诈交易呢？比如欺诈者使用一张被盗的卡片进行支付（盗卡欺诈），欺诈者直接使用盗用的账户进行交易（盗账户欺诈）。

因此欺诈检测（检测当前支付是否可能为欺诈交易）也变得尤为重要。传统的一些欺诈检测方法比如使用GBDT、SVM等方法来判别当前交易是否为欺诈样本。但是这些方法没有考虑到时序信息对当前交易的帮助，比如一个盗卡欺诈前可能会发生一些别的行为，修改信用卡信息等等。因此利用时序信息进行欺诈检测变得尤为重要，基于时序的欺诈检测如下图所示，历史时间和当前支付事件都包含一些字段，比如卡号、IP地址、银行、事件类型等等，目标就是判断当前支付事件是否为欺诈事件。

针对基于序列的欺诈检测，这篇文章提出了层次可解释网络进行时序建模，且增强了模型的可解释性。

东南亚的电商系统Lazada覆盖东南亚多个国家，但是其中一些国家的数据少，导致很难学到一个很好的欺诈检测器，所以很自然地，这篇文章提出了跨领域欺诈检测，如何利用数据多的国家帮助数据少的国家学习更好的欺诈检测器。这篇文章提出了一种针对欺诈检测问题通用的迁移学习框架，可以用于各种基于embedding的模型。

方法介绍

层次可解释网络

层次可解释网络结构如上图所示，首先建模事件的表示，这里使用一种可解释的FM从多个字段中获得事件的表示，再使用attention的机制将历史多个事件的表示聚合成序列的表示，和当前支付事件的表示拼接送入一个MLP，得到一个预测值。这里不对HEN的结构做过多介绍，具体公式可以参考原文。另外对关于基于时序的欺诈检测建模感兴趣的可以参考[2,3]。

通用迁移学习框架

迁移学习框架如上图所示。这里的跨领域欺诈检测问题包含一个源领域和一个目标领域，通常源领域包含充足的数据，目标领域只包含少量样本。这里主要介绍如何设计这个结构。

不同国家的一些字段的值是不共享的，比如IP地址、银行。另外即使一些字段共享，所表示的语义可能也不同，比如某个邮箱在国家A表现出高风险，在国家B表现出低风险。因此将embedding层分成了domain-shared和domain-specific。
不同国家的欺诈事件表现出来的历史序列不同。每个国家对于电商平台有着不同的规定，导致具体的操作流程有所不同。比如有的国家的盗卡前得修改一些信息，另外一些国家可能不用。另外不同欺诈团伙的作案流程也可能不同。所以这里对序列的建模也分为domain-shared和domain-specific。
通过前面两步得到了domain-shared和domain-specific的表示，避免人为设置相加的权重，这里我们使用一种domain attention的机制。
最后的MLP的输入为source和target样本，特征分布上存在一定差异，可能导致源领域上过拟合，目标领域上效果不佳，因此这里采用一种contrastive DA loss。

这里只介绍设计的思路，具体的公式参考原文。注意上面的迁移学习框架并没有定义每个模块必须是什么，behavior sequence extractor可以是任意结构，可以是HEN的行为序列提取器，也可以是别的结构，比如直接按照wide & deep，使用全连接层。

实验效果

这篇文章使用企业数据，包含4个国家，如下所示。从图中可以看出国家C4的样本总数最少，并且欺诈样本比例最高，所以以C4作为目标领域，其他三个国家作为源领域。从表格中可以看到，不同国家的黑白样本比例不同，平均历史长度也不同，也反映了不同国家的数据存在领域偏移（domain shift）。

这篇文章首先测试了HEN在单领域欺诈检测的效果，可以看出HEN在四个国家的数据上相比baselines都有所提升：

这篇文章又将迁移学习框架用于5个base model，如下图所示，可以看出这篇文章提出的迁移学习框架针对大多数base model都适用。

总结

这篇文章提出了跨领域欺诈检测，并且提出了一种合适的解决方法，解决了欺诈检测中数据不足的问题。在欺诈检测中的迁移学习应用和在CV和NLP的公开数据集上研究迁移学习不同，需要更多地考虑落地场景的特点，去设计算法。

[1] Zhu Y, Xi D, Song B, et al. Modeling Users’ Behavior Sequences with Hierarchical Explainable Network for Cross-domain Fraud Detection[C]//Proceedings of The Web Conference 2020. 2020: 928-938.

[2] Xi D, Zhuang F, Song B, et al. Neural Hierarchical Factorization Machines for User's Event Sequence Analysis[C]//Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. 2020: 1893-1896.

[3] Xi D, Song B, Zhuang F, et al. Modeling the Field Value Variations and Field Interactions Simultaneously for Fraud Detection[C]. AAAI2021.

迁移学习的应用：跨领域欺诈检测