深度CTR预估模型的演化之路2019最新进展

导读：本文主要介绍深度CTR经典预估模型的演化之路以及在2019工业界的最新进展。

作者：锅逗逗

来源：https://zhuanlan.zhihu.com/

p/86181485

整理：深度传送门

介绍

在计算广告和推荐系统中，点击率（Click Through Rate，以下简称CTR）预估是一个重要问题。在CTR预估任务中（以下简称CTR任务），我们通常利用user信息、item信息和context信息来预测user对item的CTR。

传统CTR预估任务采用的方法不外乎特征工程+LR/FM的组合，这种通过大量特征工程来提高预测效果的工作费时费力，且构造过程不具有通用性。此外，传统的人工特征工程处理开放式的特征（如用户ID）似乎难如登天，而这些特征往往能够为模型提供许多正向的收益。

随着深度学习的发展，近年来越来越多的深度学习模型被应用到CTR任务中来。Wide&Deep、DeepFM等模型相信大家都耳熟能详，DIN、DIEN等结合用户历史行为的模型最近更是被人津津乐道。

本文主要关注利用仅根据user信息、item信息、context信息， 不考虑用户历史信息的“传统”深度CTR模型的演化过程 ，希望通过梳理，大家能够对近年来深度学习模型在CTR任务上的探索有一个大体的认知。

深度CTR模型的基本框架

典型的深度CTR模型可以分成以下四个部分：输入、特征嵌入（Embedding）、特征交互（有时候也称为特征提取）和输出。

naqIfyZ.jpg!web

输入：输入通常包含若干个<特征ID, 特征值>对，当然也可以One-Hot Encoding展开（如上图所示）。

特征嵌入（Embedding）：在CTR任务中数据特征呈现高维、稀疏的特点，假设特征数为N，直接将这些特征进行One-Hot Encoding会产生巨大的参数数量。以FM的二阶项为例子，如一万个特征，两两构造二阶特征时将会产生一亿规模的特征权重参数。

Embedding可以减小模型复杂度，具体过程如下：

通过矩阵乘法将1*N的离散特征向量通过维度为N*k的参数矩阵W压缩成1*k的低维度稠密向量，通常k<<N，参数从N^2降到N*k。

此外，在CTR任务中特征常以分组（group, 有时也称领域field）的离散特征信息，如user gender、item category等，在从FM推演各深度学习CTR预估模型（附代码） [1]中提到“将特征具有领域关系的特点作为先验知识加入到神经网络的设计中去：同领域的特征嵌入后直接求和作为一个整体嵌入向量”。沿用这样的方法基于以下三个原因：

经分组特征嵌入后送入后续模块得到的是定长向量，且特征组个数<<特征数，减少后续模块的参数量。
不同组的嵌入维度（即上文中的k）可以不同，可以根据特征组内的特征个数合理设计嵌入维度。
如果特征组的嵌入维度相同，则不同特征组间的嵌入向量可以两两组合得到大有裨益的二阶特征信息。

特征交互：经过特征嵌入可以获得稠密向量，在特征交互模块中设计合理的模型结构将稠密向量变成标量，该模块直接决定模型的质量好坏。本文接下来的内容将重点介绍这个模块的设计过程。

输出：将特征交互模块输出的标量用sigmoid函数映射到[0, 1]，即表示CTR。

万丈高楼平地起： LR、FM、Embedding+MLP

LR: Logistic Regression

不积跬步无以至千里，从最简单的LR模型说起。一言以蔽之，LR将特征加权求和并经sigmoid即得到CTR值，在深度CTR模型的基本框架下的LR表示如下图：

vyaauaj.jpg!web

其中嵌入部分的维度大小均为1；特征交互中具体工作是将嵌入部分得到的值相加。模型的抽象化表示如下图：

eiiyaiN.png!web

FM： Factorization Machines

与LR相比，FM增加了二阶项的信息，通过穷举所有的二阶特征（一阶特征两两组合）并结合特征的有效性（特征权重）来预测点击结果， FM的二阶特征组合过程可拆分成Embedding和内积两个步骤。

MF7vQjF.jpg!web

Embedding+MLP

多层感知机MLP因具有学习高阶特征的能力常常被用在各种深度CTR模型中。MLP主要由若干个全连接层和激活层组成。

jmU3Yri.jpg!web

他山之石可以攻玉

基于FM中的Quadratic Layer的改进

AFM: Attentional FM 【IJCAI'17】

两个特征内积的过程如下：两个特征向量做Hadamard Product得到1*k的二阶组合特征向量，再将这个向量沿嵌入维度求和（sum by dimension）得到一个实数值。

AFM[2]通过注意力网络学习二阶组合特征的重要性，将所有的二阶组合特征向量进行加权求和作为Attention Net部分的输出。

7R7JZz3.jpg!web

IAFM【AAAI'19】

IAFM（Interaction-aware FM）[3]从特征层面和特征组层面共同影响二阶组合特征的重要性。其中在特征组层面，通过网络学习特征所在特征组之间的重要性向量。最后将二阶特征向量和特征组向量做Hadamard Product再求和得到Attention Net部分的输出。

fQRJviu.jpg!web

基于Embedding+MLP的改进

Wide&Deep【DLRS'16】

将LR和MLP并联即可得到Wide&Deep模型[4]，可同时学习一阶特征和高阶特征。

m6RRruR.jpg!web

FNN【ECIR'16】

FNN[5]本质上还是Embedding+MLP模型，只是利用FM模型预训练Group Embedding。近年来一些研究表明通过预训练FM初始化Embedding值的深度学习模型在一些任务上能够达到快速收敛的效果。

b6JRB3q.jpg!web

NFM【SIGIR'17】

将LR、MLP和Quadratic Layer串连可得到NFM[6]，注意这里的Quadratic Layer和原始FM模型里有些许不同。

yEJfiyF.jpg!web

DeepFM 【IJCAI'17】

将LR、MLP和Quadratic Layer并联可得到DeepFM[7]，注意到MLP和Quadratic Layer共享Group Embedding。DeepFM是目前效率和效果上都表现不错的一个模型。

MZVRBfb.jpg!web

DCN: 【ADKDD'17】

将LR、MLP和Cross Net并联可得到DCN[8]。 Cross Net是一个堆叠型网络，该部分的初始输入是将f个(1,k)的特征组向量concat成一个(1,f*k)的向量（不同特征组的嵌入维度可以不同，反正拼起来就对了）。

每层计算过程如下：输入向量和初始输入向量做Cartesian product得到(f*k,f*k)的矩阵，再重新投影成(1,k)向量，每一层输出都包含输入向量。

NVfENfv.jpg!web

xDeepFM【KDD'18】

将LR、MLP和CIN并联可得到xDeepFM[9]。

jMf6vuU.jpg!web

为了统一符号解释一下，图中的D=嵌入维度k。 CIN也是一个堆叠型网络，该部分的初始输入是一个(f,k)的矩阵。 每层计算过程如下 ：输入矩阵(Hi, k)和初始输入矩阵沿嵌入维度方向做Cartesian product得到(Hi, f, k)的三维矩阵，再重新投影成(Hi+1,k)矩阵。

CIN的最后一层：将CIN中间层的输出矩阵沿嵌入维度方向做sum pooling得到(H1,1),(H2,1)...(Hl,1)的向量，再将这些向量concat起来作为CIN网络的输出。

在这里可以将CrossNet和CIN做一个小小的对比

6jUjamJ.jpg!web

PNN【ICDM'16】

将Inner/Outer Product Layer和MLP串连可得到PNN模型[10]。其中Inner Product Layer和Quadratic Layer v2实际上是一个东西（权重在Product Layer层增加了可训练的权重参数）。

后面提到OENN、OANN、FGCNN都是基于IPNN（使用Inner Product Layer）进行改进。

yaYv6ri.jpg!web

OENN【SIGIR'19】

OENN（ Order-aware Embedding Neural Network for CTR Prediction ）[11]认为相同特征在不同阶交互时应当使用不同嵌入向量，对于大于3阶的交互过程则使用CIN替代。

rABVruz.jpg!web

OANN

OANN（Operation-aware Neural Networks for User Response Prediction）[12]认为相同特征在交互过程中执行不同的操作应当使用不同嵌入向量，例如一共有f个特征，每个特征与其他特征做Inner Product会执行(f-1)次操作，加上不交互的嵌入向量，即一个特征需要有f个对应的嵌入向量。

JrY7vm2.jpg!web

FGCNN【WWW'19】

FGCNN（Feature Generation by Convolutional Neural Network）[13]是在IPNN的基础上串连了一个Feature Generation Layer。Feature Generation由Convolutional Layer+MaxPooling Layer+FC（原文中的recombination layer）组成，CNN提取useful neighbor feature patterns，将MaxPooling得到的特征组信息拍平了通过一个FC可提取global feature interactions.

Fru26fA.jpg!web

FiBiNET【RecSys'19】

FiBiNET[14]的创新点在于引入CV中的SENET和设计了Bilinear-Interaction。SENET是一个比较有效的特征提取方法，共分为三个部分：Squeeze，Excitation和Re-Weight。

Binear-Interaction则是在特征之间加入(k,k)的权重参数矩阵（文中的W）进行计算，论文中设置了三种模式：共享（Field-All）、特征组共享（Field-Each）、特征独享（Field-Interaction），分别要训练1个、f个、f*(f-1)/2个维度为(k,k)的权重参数矩阵。

ABbuIjm.jpg!web

AutoInt【CIKM'19】

AutoInt[15]可以看做将MLP的FC部分替换成Multi-head Self-Attention。

F7RZjiB.jpg!web

总结

1. 深度CTR模型说白了就是一个“搭积木”的过程，然而不是每块“积木”都是有效的，“积木”之间的拼接方式也会影响模型的好坏。

2. 甲之蜜糖乙之砒霜。不同模型适用的场景不同，这部分需要一定的实验和经验积累，我经验尚浅，就不在此班门弄斧了。

3. 推荐一个大佬的开源实现，向厉害的人学习：https://github.com/shenweichen/DeepCTR。

参考文献

1. https://blog.csdn.net/han_xiaoyang/article/details/81031961

2. Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks

3. Interaction-aware Factorization Machines for Recommender Systems

4. Wide & Deep Learning for Recommender Systems

5. Deep Learning over Multi-field Categorical Data – A Case Study on User Response Prediction

6. Neural Factorization Machines for Sparse Predictive Analytics

7. DeepFM: A Factorization-Machine based Neural Network for CTR Prediction

8. Deep & Cross Network for Ad Click Predictions

9. xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems

10. Product-based Neural Networks for User Response Prediction

11. Order-aware Embedding Neural Network for CTR Prediction

12. Operation-aware Neural Networks for User Response Prediction

13. Feature Generation by Convolutional Neural Network for Click-Through Rate Prediction

14. FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction

15. AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Network