35

用深度学习进行欺诈检测

 5 years ago
source link: https://www.jiqizhixin.com/articles/2019-04-28-4?amp%3Butm_medium=referral
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

正如吴恩达在他关于应用 triplet loss 函数的演讲中指出的那样,在深度学习文献中总是会用到“__Net”或者“Deep__”这样的取名。所以,本着这种“传统”,我也将本文命名为Fraud Net或者Deep Fraud。

言归正传,我们还是开始讲欺诈检测吧。

BbMJZ3Z.png!web

图1:包括金融公司常规交易和欺诈交易的图

我们其实关注的是欺诈预测(预防欺诈发生),这个后续我们会说到。今天我们讲,如何把一些先验行为归于二分类目标,换句话说欺诈/非欺诈目标。我们将研究确定某个实体是否进行了交易欺诈的两种方法,第一是使用图的嵌入;第二是使用一些图的Topology Metric。

这里大家可能会有一个疑问,如果交易欺诈已经发生了,那么谁会在乎识别结果?通过学习这篇文章,你会知道这很重要。2015年我曾经提到过,假正(False Positive ,被模型预测为正的负样本)欺诈标签导致了118 billion dollars的损失,而实际欺诈案件的成本为90 亿美元。虽然90亿美元很多,但是只占总成本的7%。所以,准确标记欺诈交易和建立空间站一样重要。

图嵌入——个体欺诈

场景一:提高信用卡欺诈分析工具的准确性。

首先,要将你的数据组织成graph。将个人客户和商家作为节点,并将其财务历史作为节点属性。使用节点属性(比如交易时间戳和交易金额)构建表示这些实体之间金融交易的边。

然后,将graph嵌入到低维空间,这样我们才可以使用较为简单的模型来分析它。为什么不直接将graph data输入到模型中呢?因为几何形状不兼容(你可以通过学习Kipf他们的论文《Semi-Supervised Classification with Graph Convolutional Networks》了解我说的意思)。

正如上面所说,节点表示拥有信用卡的个人客户和与他们交易的商户。注意下面的三维结构,大量的边表示金融交易。这真是一个非常需要嵌入的图。

UrmaemN.png!web

边表示金融交易

embedding的策略有很多,我主要介绍两个常见的,一是主成分分析降低维度(PCA);二是通过特征值分解的spectral embedding(eig)。

nAFBRna.png!web

图3:这是图2经过两种embedding方法后的呈现,蓝色是PCA;橙色是特征值分解。

最后,我们可以构建一个模型,对经过嵌入的graph进行建模就和普通的深度学习建模一样了。这包括了节点(实体),边,还有上述的坐标信息。建一个分类模型,进行训练就好了。

相关的信用卡欺诈检测数据集:http://mlg.ulb.ac.be

关于上述两个方法,也为大家找来了两种方法的详述内容:

The Principal Components Analysis of a Graph, and its Relationships to Spectral Clustering

https://www.info.ucl.ac.be/~pdupont/pdupont/pdf/ecml04.pdf

Spectral embedding of graphs

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.101.2297&rep=rep1&type=pdf

使用 Topology metric——团伙欺诈

场景二: 从大量的交易记录中找出洗钱的团伙。 这个问题比分析单个交易记录更有趣。 这不是看离散样本,而是要分析金融交互。 这也是图真正的魅力所在。

看下图,这是一组在财务上互动的公司。颜色代表他们的“community”,由无监督学习算法确定。任务是分析黄色的公司真的是洗钱团伙的幌子吗?

Uzqeqem.png!web

图4:黄色的公司真的是洗钱团伙的幌子吗?

第一步:将数据定义为图结构;

第二步:构建一个算法,提取感兴趣的子图(上图中的彩色社区),并计算每个社区的Topology metric;Topology metric是描述子图形状的,比如一种流行的Topology metric是边的数量,在黄色的子图中,有25条边。这里有很多何种Topology metric,我们为每个子图计算了几十个;

第三步:为每个子图构建这些topology metric的特征向量,以另一种方式连接节点属性。这里是计算子图中所有节点的平均节点属性;

第四步:构建已知标签的目标向量(或者多分类目标矩阵),然后构建模型训练。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK