64

用R语言分析评估广告投放效果

 5 years ago
source link: http://www.10tiao.com/html/314/201807/2672941221/1.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

大家都知道,广告投放是引入新用户的手段之一,通过广告,可以有效地对产品进行推广。根据广告投放方式可以分为线上投放与线下投放,线上投放效果可以通过技术手段进行追踪监测,而线下广告投放效果就不是那么评估衡量的了。


有句名言:“我知道我的广告费至少浪费了一半以上,但我不知道究竟浪费在哪里?”说的是广告投放由于不当而造成巨大浪费的问题。广告投放如何将钱用在“刀刃”上,使企业的每一分钱都发挥效用呢?


在进行广告的投放的时候,咨询公司会建议我们和媒体维持良好的合作关系,避免连续 3 个月不投放广告的情况。因此,我们一般不会只对一个媒体投放广告,而是同时对多个媒体投放广告。


因为是同时对多个媒体投放广告,我们无法确定哪些新用户是由哪个媒体的广告带来的。这就给对每个媒体的广告效果评估,带来了难度。



一般我们使用CPI(Cost Per Install,获得一个新用户所需的成本)这个指标,来评估广告投放的效果。如上图所示,我们只知道在 month 月份,给电视投放 tvcm 元的广告和给杂志投放 magazine 元的广告,可以带来了 install 的安装量。但是单独投放电视广告或者杂志广告能带来多少 install呢?这个无法直接通过数据确定和评估。


这时候,我们就可以使用多元线性回归的方式,来评估每个渠道投放广告的效果。


多元线性回归


模型假设


假设模型的方程为:


install = a * tvcm + b * magazine + c


其中 a 就是投入一元的 tvcm 电视广告,能够带来多少个 install,b 就是投入一元的 magazine ,能够带来多少个 install,c 则是就算没有对 tvcm 和 magazine 做任何的投入所能够带来的 install。


强相关性判断


要使用这个函数来描述这个业务,必须保证 tvcm 和 install、magazine 和 install 之间,是一种强的线性相关的关系。要验证 tvcm 和 install、magazine 和 install 之间是否具有强的线性关系,可以通过散点图来进行描述。



执行代码,可以看到, tvcm 和 install、magazine 和 install 之间,可以用一条直线来近似模拟。因此,我们可以判定 tvcm 和 install、magazine 和 install 之间符合强的线性相关。


tvcm 与 install 之间符合强线性相关

magazine 与 install 之间符合强线性相关


模型求解


在R语言中,使用 lm 方法,即可求解出模型 tvcm、magazine 的参数与常数项,如下所示。



其中,tvcm 前面的参数为1.36,也就是投入一元的电视广告,可以增加 1.36个安装用户;magazine 前面的参数为 7.24,也就是投入一元的杂志广告,可以增加 7.25 个安装用户;如果我们即使对电视广告和杂志广告的投入为0,那么也可以增加 188.17 个安装用户。


模型评估


求解完模型之后,还需要对模型进行评估,使用 summary 方法,对 lm 方法返回的结果进行解释,即可得到模型的评估解读,如下所示:



第一项是残差,也就是模型拟合出来的值和真实值之间的差值,如下所示:




可以看到,残差均匀分布在 0 值的左右,并且它们之间的和接近于 0,因此我们可以说,模型的残差符合随机误差(残差不符合随机误差的模型不能使用)。


第二项是参数的显著性,也就是参数是否存在统计学上的统计意义,如下所示。



我们可以通过每个参数后面的 * 的个数,来解释每个参数是否具有统计学上的统计意义。可以看到,tvcm 与 magazine 的参数,有一个以上的 * ,具有统计学上的统计意义,而常数项后面没有 *,所以没有统计学上的统计意义。


第三项是模型的拟合程度,也就是用于预测的准确性,如下所示。



我们主要使用 Adjusted R-Squared 来判断模型的拟合程度,这里可以看到调整判定系数为 0.9202,也就是 92.02% 的预测准确性。


模型使用


到这里,我们就可以得到以下模型:


新用户数 = 1.361× 电视广告费 + 7.250× 杂志广告费 + 188.174


当我们投入的电视广告费用为 4200 元  杂志广告为 7500 元的时候,可以收获 60279 个安装用户。


希望学习R数据分析与挖掘的朋友可以学习《数据分析进阶(R分析与挖掘) 视频课程,现已有1500+学员加入学习《数据分析进阶(R分析与挖掘)》前2000名可享7折(原价397元,折后279元)优惠

点击“阅读原文”,即可进入课程页面学习~



About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK