题目: 增长模型下的数据体系运用(2):利用AB测试选择最优功能
简介:本文作者从实战案例出发,深入探讨了AB测试的正确姿势。包括何时该做AB测试、如何选择观察指标、如何应对多个因素叠加的情况,以及如何正确解读AB测试的结果。希望对从事产品、运营及增长工作的朋友有所启发。
本篇谈一个大家十分熟悉的技术——AB测试。所有有实际产品或运营经验的同学对它都不陌生,然而,在实际运用中却常常存在意识或决策上的明显错误。
有四个问题,常常会存在判断上的困难:
1. 到底什么要做AB测试?什么不要做?
2. AB测试时,我们应该如何判定什么数据是正确的观察对象?
3. A和B本身只是两个平级的分支,那么如果想要同时测试多个因素,尤其是互相重叠的因素(无法对等分为A、B、C、D测试组),那该怎么办?
4. AB测试的结果真的像看起来那么正确吗?
这几个问题看起来似乎很简单,然而,实际工作中我们恰恰常在这几点上做出错误决策。下面让我结合实战案例上做一些探讨:
[图片插入]
一、AB测试做与不做的具体情况
01
我最初接触AB测试时认为:如果想精确评估一个功能带来的效果,或者衡量对比两个决策因素(或者两个设计、两个选项……)孰优孰劣如何选择,我们可以通过AB测试来实际看一下到底哪个更优。如果采用某个方案已经非常肯定,那么AB测试并没有太大必要。
然而,在实际工作中,我还是看到了非常多的例子,似乎已经非常肯定的事情,AB测试的结果却给出了完全相反的答案。
下面我们看一个实际的例子:
作为综合性电商,如何在显示面积有限的移动端向消费者高效率展示海量商品,是个普遍的难题。我的团队曾经针对"做浅"做过一个产品改造,在移动端首页的所有类目频道入口直接增加展示单品,以驱动商品曝光,带来更多的商详页浏览量。经过四周的Weblab测试,数据结果表明,新版设计反而导致了商详页流量的下降1.32%。
这是一个非常意外的结果,产品和BA团队随后立即进行了深入的专题数据分析。发现新版设计虽然单个品类频道的商详导流能力增强了,但在同样的移动端屏数里,得到曝光的品类频道入口减少了,导致全局商详流量出现下降。
这个案例表明,很多主观上看似明显更好的设计,在数据结果上往往出人意料。因此,如果条件具备的话,所有的新功能迭代都应当进行AB测试,并保持一个合理的时长,来验证预期效果是否达到;尤其要谨慎的是,局部优化,是否在全局上反而得不偿失。
02
进行AB测试时,我们可以多注意以下的问题,避免踩雷。
1. 进行局部AB测试
2. 在A和B样本选取的时候,需要对影响因素尽量保持完全对等
3. 要注意用户对新功能新用法有一个习惯培养过程
4. 战略性的新功能并不适用于AB测试
5. 避免投入的浪费
二、AB测试时,如何判定正确观察指标?
下面我们来看一个实际案例:
某亚中国app的购物车逻辑有所不同于国内主流电商,它更类似用户在超市中实际推的购物车。经过AB测试验证,老版本的销售额反而优于部分结算版本。
分析发现,新版本的部分结算会导致用户误买、退货率提高等问题,同时也会损失一定的潜在销售机会。因此,仅仅以直接销售额作为核心指标是不够的,还需要综合考虑退货率、用户满意度等多维度指标。
最终,通过更为全面的指标测试,部分结算版本购物车赢得了AB测试,获得了0.34%的综合销售提升和0.66%的下单频度提升,最终得以成功上线。
以上案例说明,在进行AB测试时应当根据被测功能的综合价值,对考量指标做一个全面分析,考虑多维度价值以及中长期影响,做出一个更为全面和长远的决策。
三、如何同时测试多个相互叠加的因素?
有时我们想要同时测试多个因素,或者测试本身受到很多因素的同时影响。通过对这些因素进行垂直正交地流量拆分,让除被测因素以外的其它因素都互不干扰,可以更好地获取相对准确的结果。
四、AB测试结果真的正确吗?
AB测试结果可能会受到偶然性因素的严重影响。消除方法包括:取更大的数据样本、设置置信阈值、对数据做平滑处理等。同时,要充分意识到AB测试结果的"置信度",谨慎判断。
最后要强调的是,数据只是工具,也会被人断章取义。我们要时刻保持职业操守,避免被数据结果蒙蔽。