什么时候这个测试才算做完呢?这个结果究竟可不可信?相信不少做过AB测试的朋友也有过类似的困惑。究竟有没有什么指标能帮助我们判断这个测试的可信程度呢?答案当然是有的,而且不止一个。
首先让我们来看一个案例,这是一个很简单的AB测试,通过修改按钮的样式,我们希望能测试一下究竟哪种按钮的样式能让用户更有点击的欲望。
第一天:1

第三天:3第六天:4第七天:5第八天:

6  各位聪明的看官是否又发现什么问题呢?实验提升率这个指标在前面几天都出现了非常大的波动,而后面却越来越平稳。这就是统计学中的大数定律在起作用了。(大数定律可以简单理解为:当n足够大时,事件A出现的频率将几乎接近于其发生的概率,即频率的稳定性。)
说回正题,在我们实际使用AB Tester进行AB测试的时候,为了判断一个实验的可信程度,往往需要根据测试人数/转化人数/置信度三个指标来进行判断,下面就让我为各位一一道来。
  测试人数就是这个实验的样本量,一般来说,样本量越大,测试出来的结果就会越准确,在AB Tester中测试人数是独立访客,尽可能确保实验样本不重复。每个实验所需要的测试人数都略有不同,受到实验者对置信度的要求、改版页面变化大小、转化率等因素的影响,一般来说只需要几千的用户即可。
  转化人数是这个实验中发生了目标行为的访客数量,这是我们最为关注的一个指标,他直接确定了置信度、转化率、Z-Score等等指标。要想实验可信,转化人数是需要达到一定的数量的,不然就很容易出现上面那个案例的情况。至于需要多少的转化人数,这个也是因网站流量而异的,一般需要一两百的转化人数。
  置信度是对一个版本优于控制版本的把握程度,是一个比较专业的统计学指标,计算公式有点复杂(当然 AB Tester里面会帮你自动计算出来),一般的科学实验也很喜欢使用这个指标。一般来说我们会根据所需要的置信度来预估测试的人数以及转化人数。但值得注意的是,这个指标本身并不能直接说明这个实验是否可信,这个指标更多是用来表示实验的结果。
以上三个指标并非孤立的存在,在实际的运用当中我们还是要综合考量的。当然也有一些更简单的方法,就是如果数据在一个比较长的实验时间内都保持比较稳定的话,也能说明实验是可信的。如果大家感觉还是有点复杂的话也不必太过担心,我们正在考虑在AB Tester中加入一个实验综合信度的指标来帮助大家解决这个问题~~请大家尽情期待

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Post Navigation