AB测试样本量计算器使用指南:4个关键参数详解
AB测试样本量计算器使用指南:4个关键参数详解
在互联网产品优化中,AB测试是一种常用的方法。为了确保实验结果的准确性和可靠性,合理计算样本量至关重要。本文将详细介绍如何使用evanmiller计算器进行AB测试样本量计算,帮助读者更好地理解各个参数的意义和影响。
在实际的AB测试中,通常会直接使用一些AB测试计算工具来求解样本量。一方面是因为计算公式较为复杂,不易记忆且耗时;另一方面,在管理层看来,使用计算器计算比手动计算更不容易出错。
接下来,将以使用频率较高的evanmiller计算器为例,详细介绍其具体使用方法。该计算器的网址为:https://www.evanmiller.org/ab-testing/sample-size.html
这个计算器有4个输入参数。有了这四个输入,就一定能够算出所需样本量,也就是中间的Sample Size输出的结果。这四个输入参数分别是:
- Statistical power(统计功效)
- Significance level(显著性水平)
- Baseline rate(基线率)
- Minimum detectable effect(最小可检测效应)
其中,Statistical power和Significance level一般分别设置为80%和5%,不需要修改。
接下来,我们详细解释每个参数的含义。
Statistical Power和Significance Level
A/B实验的基础是假设检验。首先需要给出两个假设:
- 原假设(Null hypothesis, 也叫H0):我们希望通过实验结果推翻的假设。在AB测试中,原假设可以表述为“红色按钮和绿色按钮的点击率一样”等。
- 备择假设(Alternative hypothesis, 也叫H1):我们希望通过实验结果验证的假设。可以表述为“红色按钮和绿色按钮的点击率不同”等。
根据实际情况和实验结果,可以得到以下几种可能的结果:
情况1:点击率实际无区别(H0正确),却认为有区别
这种错误称为第一类错误(Type I error),我们用α表示第一类错误出现的概率。这个α就是Significance Level,中文称为显著性水平。
在商业背景下,第一类错误意味着新的产品对业务其实没有提升,我们却错误地认为有提升。这样的决定不仅浪费了公司的资源,还可能导致部分人获得不应得的奖励。
在非商业背景下,第一类错误往往更加可怕,比如好人被判刑进监狱,健康人被误诊送去化疗。
因此,在做A/B测试时,我们希望第一类错误的概率越低越好。一般商业实验中,我们会把α人为设定一个上限,通常是5%。也就是说,在做实验时,我们都会保证第一类错误出现的概率永远不超过5%。
情况2:点击率无区别(H0正确),认为没区别
这种是正确的判断,结论和实际一致。
情况3:点击率有区别(H1正确),认为有区别
这也是正确的判断,结论和实际一致。我们把做出这类正确判断的概率叫做Statistical Power,中文称为功效。
要记住,我们做实验的根本目的是为了检测出红色按钮和绿色按钮的点击率差别。所以如果power低,即使新产品真的有效果,通过实验也可能检测不出来。因此,一般要求Statistical Power在80%以上。
情况4:点击率有区别(H1正确),认为没区别
这也是一个错误的判断,称为第二类错误(Type II error),用β表示。根据条件概率的定义,可以计算出β = 1 - power。
因此,根据惯例,Statistical Power设为80%,Significance Level设为5%,这两个参数通常不需要修改。
Baseline Rate
这个参数表示在实验开始之前,对照组本身的表现情况。在我们的实验里,baseline就是红色按钮的历史点击率。从直观上我们可以这样理解baseline:
当baseline很大(接近1)或者很小(接近0)的时候,实验更容易检测出差别(power变大),如果保持power不变,那么所需要的样本数量变小。举个例子,假设红色按钮的点击率是0%。那么,哪怕绿色按钮只有一个用户点击,相对于对照组来说也是挺大的提升。所以即便是微小的变化,实验也会更容易地检测出来。
同理,当baseline居中(在0.5附近徘徊)的时候,实验的power会变小。
在工作中,这个参数完全是历史数据决定的。在我们的实验中,我们假定,实验开始之前的历史点击率是15%。所以Baseline Rate=15%。
Minimum Detectable Effect
顾名思义,这个参数衡量了我们对实验的判断精确度的最低要求。
参数越大(比如10%),说明我们期望实验能够检测出10%的差别即可。检测这么大的差别当然比较容易(power变大),所以保持power不变的情况下,所需要的样本量会变小。
参数越小(比如1%),说明我们希望实验可以有能力检测出1%的细微差别。检测细微的差别当然更加困难(power变小),所以如果要保持power不变的话,需要的样本量会增加。
在工作中,这个参数的选定往往需要和业务方一起拍板或者根据业务情况确定。在我们的实验中,我们选定Minimum Detectable Effect=5%。这意味着,如果绿色按钮真的提高了点击率5个百分点以上,我们希望实验能够有足够把握检测出这个差别。如果低于5个百分点,我们会觉得这个差别对产品的改进意义不大(可能是因为点击率不是核心指标),能不能检测出来也就无所谓了。
最后还有一个Absolute与Relative的选项,分别代表绝对比例变化和相对比例变化,影响的也是对应的精度。当选择Baseline Rate为20%, Minimum Detectable Effect为5%时,对应的检测精度区间就是15-25%和19-21%。同样的,精度区间越大的所需样本量就越少。