AB测试介绍与案例分析

发布网友发布时间：2024-10-01 01:07

共1个回答

热心网友时间：2024-10-01 07:19

1、AB测试的概念

为web或APP界面或流程制作两个或多个版本，在同一时间维度，分别让组成成分相同（相似）的访客群随机访问这些版本，收集各群组的用户体验数据和业务数据，最后分析评估出最好版本正式采用。

简单地说就是，通过设计对照实验，对比之后看看哪个版本的效果更好。

这里有3个关键点：

2、AB测试的流程

注意点：

3、AB测试的原理（假设检验）

1）零假设与备选假设

零假设和备择假设是参数空间的真子集，且不能相交。

零假设常表述为研究没有改变，没有效果，不起作用等，备选假设与零假设互为相反。

2）检验方向

根据备选假设来确定检验方向：

3）抽样分布类型

4）检验类型和检验统计量

确定了检验类型，就可以确定检验统计量了。

5）显著性水平

显著性水平α一般取0.1、0.05或0.01，通过与检验统计量比较，可得出接受或拒绝零假设的结论。

二、AB测试案例分析

1、明确问题

案例数据是对web新旧页面的AB测试结果，目标是判断新旧两版页面在用户的转化情况上是否有显著区别。

2、熟悉数据

导入常用分析包：

导入数据文件ab_data.csv，并查看前5行：

数据集的字段及其含义如下：

共有294478行数据，每个字段都没有空值null，【user_id】和【converted】字段是整数型，其他字段均为字符串型。

3、数据清洗

1）异常值处理

上面提到，【group】字段与【landingpage】有逻辑对应关系，即treatment（实验组）看到的应该是new_page（新页面），而control（对照组）看到的应该是old_page（旧页面）。

查看是否包含存在分组group与展示页面版本landing_page不符的情况：

发现实验组和对照组都有逻辑关系不符的情况，正常情况下需要深入查找原因，这里因为数据量不多，暂且选择删除掉这些异常数据。

2）重复值处理

根据AB测试的设计原则，同一用户不能既看到旧版本，又看到新版本，所以这里根据用户ID去除重复值。

去重后数据集还有290584行数据。

AB测试中两个版本的用户数量最好是接近的，这里再查看一下新页面的用户占比：

新页面的用户占比大约50%，新版和旧版页面的用户占比还是很接近的。

4、假设检验

1）确定零假设和备选假设

2）根据备选假设确定检验方向

根据备选假设（p1 < p2），含有小于的判断句，确定检验方向是单尾检验中的左尾检验。

3）判断抽样分布类型

本次实验满足的判断结果只有0和1（转化和未转化），符合0-1分布。

4）确定检验类型和检验统计量

双样本，且样本大小n > 30，所以用Z检验。

检验统计量z的计算公式为：

其中，Pc是转化率的联合估计。

5）确定显著性水平α

这里的显著性水平α取0.05。

5、计算检验统计量

下面分别用公式计算和Python函数得到检验统计量，并进行判断。

1）公式计算

计算新旧版的用户数及其转化率（即样本的平均值）：

计算转化率的联合估计：

最后，根据上面的计算结果得出检验统计量z：

查找Z分布α=0.05时对应的分位数，以便与检验统计量z进行比较：

判断是否落入拒绝域：

2）Python函数计算

得到的z值和前面计算的完全相同，落在拒绝域，故拒绝零假设。同时我们也得到了p值，用p值判断与用检验统计量z判断是等效的，这里p值约等于0.016， p < α，同样也拒绝零假设。

6、效应量

假设检验并不能衡量差异的大小，它只能判断差异是否比随机造成的更大。因此，我们在报告假设检验结果的同时，需要给出效应的大小。

对比平均值时，衡量效应大小的常见标准之一是Cohen's d：

Cohen's d 除以的是标准差，也就是以标准差为单位，样本平均值和总体平均值之间相差多少。

由于是双样本的，这里的标准差需要用合并标准差代替，也就是以合并标准差为单位，计算两个样本平均值之间相差多少。

双样本的并合标准差计算公式如下：

其中s是合并标准差， n1 和 n2 是第一个样本和第二个样本的大小，s1 和 s2 是第一个和第二个样本的标准差。减法是对自由度数量的调整。

d的绝对值接近0.2，说明差异较小；d的绝对值接近0.5，说明差异中等；d的绝对值大于0.8，说明差异很大。

这里求得d的值约为-0.00797，绝对值很小，说明两者虽有显著性水平5%时统计意义上的显著差异，但差异的效应量很小。可以简单地理解为显著有差异，但差异的大小不显著。

7、分析结论

旧版页面平均转化用户数为0.120个，标准差为0.325；

新版页面平均转化用户数为0.123个，标准差为0.328。

双样本 z = -2.15，p = 0.016（α=0.05），单尾检验（左尾），拒绝零假设，即新页面的转化率比旧页面的转化率高。

效应量 Cohen's d = -0.00797，显著效果小，说明新旧页面的转化率差异不大。

全部栏目

AB测试介绍与案例分析