APP推广合作
联系“鸟哥笔记小乔”
只需7步,轻松搭建AB测试闭环
2022-04-02 11:33:40

随着企业对数据越来越重视,A/B测试已被广泛应用于各类场景、各类职能中寻找突破口寻找增长机会,降低投入风险

什么是A/B测试?

A/B测试是一种通过一些客观指标,对比不同方案来衡量哪种效果更佳路径的评估方式,其优势在真实环境,通过部分用户产生的用户行为数据和业务数据,验证不同的设计方案,最后分析、评估出最优方案再加以正式应用

A/B测试的场景不胜枚举,那么如何进行科学的A/B测试?原味提供两个关键点:分群和评估,接下来用7步法来锁定A/B测试评估策略

第一步:A/B测试策略制定

A/B测试永远是基于策略出发的,在有明确的策略后,才能够找到验证策略是否有效的用户群,并且用合理的指标去做评估分析

在这个步骤,通常会经历策略提出、策略打分、策略确定三个步骤

不管是哪种应用场景,在A/B测试策略制定这一步每个人都会有自己的想法,这就导致会产生许多策略,但不必将每个策略都作为实验组上线测试,否则在前期的物料准备、方案实现等环节会花费巨大的成本

团队内部做决策时可以使用ICE模型对各项指标进行打分,然后通过每个策略的三个因子的分数加总,找到得分最高的几个策略进行A/B测试

第二步:测试目标(评估指标)选择

在策略评估中,评估指标是非常重要,那如何选择指标,这里需要以OSM模型为基础,从大目标(O)出发,找到能够达到该目标的策略(S),用合理的指标(M)去追踪策略是否能够达成业务目标

在测试过程中预估实验样本量也需要控制好

①若样本数量太少,产生的结果容易受到异常样本的干扰,导致结果不具备通用性

②若样本数量太大,测试流量过多,就会造成试错成本的增加,会影响后期的判断

在测试过程中预估实验周期性也需要控制好

①若测试时间太短,没有足够的样本进入实验组,难以得出有效结论

②若测试时间太长,就会产生维护线上多个版本的成本,难控制局面

这里推荐个测试AB测试工具-A/B测试样本计算器,输入相关参数即可预估测试实验转化后的数据,这里有根据自身节奏调整样本数:

影响实验所需样本数的因素:

▲原版本的转化率

原版本的转化率较低,意味着信号更弱,需要样本数越多

▲新版本的转化率

预期和原版本的转化率差别越小,要求检测的敏感度就越高,因此需要的样本数越多

▲统计显著性要求

一般建议至少要求95%的统计显著,统计显著性要求越高,意味着对结果需要更确定,因此需要的样本数越多

(统计显著性:告诉实验者优化版本转化率与原始版本转化率相比,两者不同的概率有多大,也就是说,它能回答优化版本上的改变是否真的对转化率产生影响)

第三步:科学分流

A/B测试的分流是否均匀是影响实验结果的重要因素,一般分流的方式是基于用户ID或者设备ID等能够标识用户的唯一编码,通过算法将用户随机分到不同的“桶”里

⚪例如,有60个用户,获取这60个用户的ID,根据用户ID进行分流,将这60个用户随机均匀分散到6个桶中

完成分流后,需要做的就是根据实验要求从这些桶中选取对应的流量进入测实验组

A/B测试的基本原理是控制变量,在分流中需要确保样本平衡分布,即不同桶的人群特征是均匀分布的,不能实验分组时,实验A全是老人或实验B都是女生,这样测出的结论数据都会影响营销决策,无意义分流

第四步:A/A测试

为了确保样本的均匀分布,排除由于样本自身差异带来的影响,一般会在A/B测试前进行A/A测试,也可以在A/B测试中划出一部分流量同时进行A/A测试

A/A测试,顾名思义就是实验中下发的策略都是一致的

在此前提下,对比每组是否有显著差异,如果存在显著差异,那么在实验的分流、埋点或者数据统计中至少有一项必定存在问题,所以,A/A测试运营的意义就是增加A/B测试的实验结论可信度

一方面,发现用户识别问题及用户分流问题,及时修复,确保数据的准确性

另一方面,排除样本用户的属性干扰,保证用户特征分布一致,确保实验差异仅由变量造成

用影视会员产品转化率的例子来解释A/A测试,下图是影视会员产品付费页的付费转化率项目的A/A测试结果

排查时发现是对用户的唯一识别出现了问题,修正后接着进行A/A测试,最后各组用户的差异不显著,可以认为用户特征分布基本一致

第五步:策略投放

在企业真实环境中,会有很多A/B Test实验,所以策略投放需要先判断不同实验之间的关系

①正交实验:实验之间相互不影响。例如,实验组1是测试不同按钮颜色的实验,实验组2是测试不同广告算法的实验,实验组1的按钮颜色是不会影响到实验组2广告算法的效果,所以实验组1和实验组2之间是正交实验

②互斥实验:实验之间存在相互影响。例如,实验1是测试温控限频策略对温度的影响,实验2是测试温控降亮度对温度的影响,实验1和实验2都会影响温度,所以实验1和实验2之间互斥

全局流量基本是固定的大小,不可能说划分的每个流量群体在同一时刻只开展一个实验,不然容易发生流量饥饿

所以在策略投放中需要合理的控制变量,选择好一个固定的北极星指标,随后将目标进行合理拆解细分目标,进行投放测试,选择最优路径策略来作为A/B测试的最终方案

第六步:数据监控

这块不细说了,因为每家公司的数据监控的工具都不同,有自己研发的数据测试看板或者第三方服务商提供的数据监控

AB测试的数据看板不必过于复杂,目的是快速展现各组的关键指标变化趋势及是否满足统计显著性

第七步:策略结果分析与执行

A/B测试结束后,通过数据看板可以确定本次测试是否具备显著性,也就是策略是否有影响

影响不一定都是正向影响,一般对于实验结果:显著大幅正向>显著小幅正向>显著负向>没有统计显著性,对于负向显著的结果不要害怕,起码这个结果告诉我们不应该做哪些东西

完成一次A/B测试后,业务方需要将显著有效的策略放量,将其应用到更多人群中,并且找到该策略的优化点,进行迭代的A/B测试

对于显著无效的策略,需要分析无效的原因并进行策略迭代、调优

这样不断在原有结论的基础上持续进行A/B测试,每次测试都是上台阶的过程,随着测试的次数增长,带来的收益会持续增加,对团队的自信心也会逐渐上升,减少投入成本,实现迭代式增长

原味叨叨
公众号二维码
分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
顺丰同城急送全国通用20元优惠券
顺丰同城急送是顺丰推出的平均1小时送全城的即时快送服务,专业安全,准时送达!
30羽毛
立即兑换
原味叨叨
原味叨叨
发表文章11
原味与他的朋友们
8年数字营销经验、私域流量专家,公众号:原味与他的朋友们
确认要消耗 羽毛购买
只需7步,轻松搭建AB测试闭环吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接