5

基于贝叶斯法则实现平台间品类优势的有效对比

 1 year ago
source link: https://jelly.jd.com/article/638de9e07003cc0061c520c2
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

JELLY | 基于贝叶斯法则实现平台间品类优势的有效对比

基于贝叶斯法则实现平台间品类优势的有效对比
上传日期:2023.01.06
本文将结合往期大促问卷数据分析时的常犯错误,基于贝叶斯法则,帮助大家分辨平台内与平台间品类优势的对比方法。

在大促用研调研时,我们经常会去问用户在不同平台的品类购买情况,以对比大促期间本品和竞品分别在哪些品类上具有市场优势,他们之间的差距具体在哪里、差距有多大。假如根据调研问卷结果,我们知道京东用户有30%的人在大促购买生鲜类,而淘宝用户只有26%的人购买了生鲜,那么我们能够得出结论说大促期间更多人来京东购买生鲜,京东生鲜具有明显的品类优势吗?

其实不然,这种忽略了前提条件的情况很可能会让我们根据主观经验做出错误的判断,即我们忽略了平台市场规模的影响。“在京东购买了生鲜”和“买生鲜的人是在京东买的”是两个完全不同的事情,假如京东只是一个小型生鲜网购平台,在该平台购买生鲜的用户比例肯定会很高;但放之全市场,由于用淘宝的人更多,虽然只有26%的淘宝用户购买了生鲜,但市场上生鲜品类售卖表现好的平台依然是淘宝。

当我们进行平台优势对比时,一定要注意根据前提条件进行比例修改。让我们看看贝叶斯法则是如何对该类分析提供指导的:

一、贝叶斯法则介绍

贝叶斯法则由英国数学家贝叶斯(Thomas Bayes)于1763年提出,用来描述两个条件概率之间的关系(即P(A|B)和P(B|A))。通常情况下,事件A在事件B发生的情况下出现,和事件B在事件A发生的情况下出现的概率是不同的(如下图所示),这是因为事件A和B发生的概率本身就不一样。

11d36b920f7b79f2.png

在具体介绍贝叶斯公式之前,我们需要先简单明确几个概念:

1) P(A):在不考虑事件B的情况下,我们对事件A的发生有一个基本的概率判断,我们称之为A的“先验概率”;

2) P(A|B):在事件B发生后,我们需要对事件A的发生进行概率的重新评估,那么这个基于事件B的事件A的发生概率就叫做A的“后验概率”;

3) P(B):在不考虑事件A的情况下,我们对事件B的发生有一个基本的概率判断,我们称之为B的“先验概率”;

4) P(B|A):在事件A发生后,我们需要对事件B的发生进行概率的重新评估,那么这个基于事件A的事件B的发生概率就叫做B的“后验概率”。

基于图1的概念,根据乘法法则易知P(A∩B) = P(A)*P(B|A) = P(B)*P(A|B),贝叶斯公式即为该公式的一个变形:

P(A|B) = P(B|A)*P(A)/P(B)

二、贝叶斯法则应用

让我们回到本文开头的那个例子中去,在进行大促用户网购品类调研时,我们通常会问这么几道题:

11d36b920f7b79f2.png

(为了应用贝叶斯公式,在分析之前,我们需要先对事件进行命名:事件Ai为“在xx平台购买”,事件Bj为“网购了xx品类”。)

假设问卷回收结果如下图所示,那么易知在甲平台购买商品的用户比例P(A1) = 77%,在甲平台购买了食品酒水的比例P(B1|A1)=47%,以此类推可知其他比例的值。

11d36b920f7b79f2.png

如果我们要对比平台品类优势,首先需要搞清楚谁是前提条件/先验事件:

1) 当我们想去看单平台内部的品类优势时,先验事件是用户来XX平台购买了商品,其次才是购买了什么商品,用数学公式可表示为(Bj|Ai),即来xx平台购买的人中,有多少人购买了xx品类。那么“在甲平台购买了生鲜”的比例就是P(B5|A1) = 27%(通过查上述表格可知),以此类推可以知道其他品类结果(如下图所示)。

那么甲平台购买量大的品类主要是食品酒水、鞋靴服饰与美妆个护;乙平台表现好的品类主要是食品酒水、美妆个护、生鲜与鞋靴服饰;而丙平台表现较好的则为食品酒水与家清纸品。

11d36b920f7b79f2.png

2) 当我们想去对比平台间的品类优势时,先验事件是用户购买了xx品类,其次才是去分辨在xx平台购买,因为这样我们才能将不同的平台都拉通在同一个起点上,避免受到平台规模的影响。用数学公式可表示为(Ai|Bj),即购买了xx品类的人中,有多少人是在xx平台买的。那么“买生鲜的人是在甲平台买的”比例就是P(A1|B5) = P(B5|A1) × P(A1) / P(B5) = 27% × 77% / 54% = 38%,以此类推可以知道其他品类结果(如下方折线图所示)。

注1:当然我们也可以将该公式进行化简,用化简后的公式来计算,即P(A1|B5) = P(B5|A1) × P(A1) / P(B5) =

11d36b920f7b79f2.png

注2:P(B5)是什么,又是如何计算得来的?答:P(Bj)指网购了xx品类的用户比例,可通过合并单个样本在不同平台的购买品类情况,并进行品类count去重,即可获得单样本的全市场品类购买情况。P(Bj) = 购买了Bj品类的样本 / 总样本量。

那么大促期间平台间对比来看,甲平台在鞋靴服饰、美妆个护方面表现出较强优势,乙平台则是在手机数码、家电方面优势突出,而丙平台优势主要在家清纸品类。

11d36b920f7b79f2.png

以上,便是当我们想进行平台品类优势对比时的一些计算方法,希望能够帮助新手同学规避统计前提陷阱,提升数据分析效率。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK