您现在的位置是: 首页 > 热门汽车 热门汽车
ab test怎么做_ABTest的基本流程及原理
2025-07-14 03:04:06 17人已围观
简介1.设检验和ABTEST(一)2.A/B Test基本原理3.什么很多的面试要求上,都要求人员掌握数据分析的技能?ABtest原理是什么,其实ABtest的基本原理是当我们在A、B两个方案之间犹豫时,直接把两个方案测试一把,看看哪个效果好,把测试结果作为参考依据,但是ABtest的难度主要在开发上:
1.设检验和ABTEST(一)
2.A/B Test基本原理
3.什么很多的面试要求上,都要求人员掌握数据分析的技能?
ABtest原理是什么,其实ABtest的基本原理是当我们在A、B两个方案之间犹豫时,直接把两个方案测试一把,看看哪个效果好,把测试结果作为参考依据,但是ABtest的难度主要在开发上:开发新版本、进行测试、测试数据回传保存等等。
一、ABtest的基本原理
简单来说,ABtest就是当我们在A、B两个方案之间犹豫不决的时候,直接把两个方案测试一把,看看哪个效果好,把测试结果作为参考依据。
因为是抽样测试,所以需要一些统计学方法,估计是否测试能代表整体情况,因此要引用统计学方法。
二、ABtest如何做
ABtest本质上是一个: 两总体 设检验问题,要检验A、B两个版本是一样,还是有所区别。和之前介绍的单总体设检验一样,两总体设检验,也分步骤:
第一步:明确要检验的A、B两个对象
第二步:明确要检验的指标,是平均值,还是比例
第三步:根据检验目的,给出原设/备选设
第四步:根据要检验的指标,选择检验统计量(是不是头都看大了,其实没关系,大部分统计软件,包括excel,都有提供两样本均值的t检验,直接用即可)。
第五步:给定显著性水平,计算统计量,得出结果:支持原设还是推翻原设
这里的原理和设检验是一模一样的,小伙伴们可简单理解成:检验的是两个方案的均值/比例,是否等于0。
是不是头又看大了,没关系,这些计算结果在统计软件中都可以直接给出。小伙伴们只要记得: P值小于0.05推翻原设 ,就OK啦!
三、ABtest小例子
来看个具体例子:某电商平台,想提升用户客单价,运营部门做了两套方案:A、B激励方案,想小规模投放优惠给用户,测试下效果。已选出两组各12名用户,测试用户客单价如下图所示。此时可以用excel自带的两总体t检验功能来做:
第一步,先准备好A、B两个方案的数据
第二步:明确,要检验的是平均值(检验两个方案的平均客单价是否一致);
第三步:给出原设。这里可以简单处理,提设;
原设:方案A客单价均值=方案B客单价均值;
备选设:两者不相等。
这样怼翻了原设,就说明方案A和方案B有差异啦(记得把要怼翻的放原设哦)
第四步:代入t检验公式计算;
第五步:解读结论。
既然方案A与方案B不同,A的均值又高于B,那么就认为A更好啦,搞掂!
这样就做完啦!
四、ABtest的注意事项
注意1:测试目标要清晰。 在实际工作中,有些产品经理/运营的口头禅就是:“AB一下看看”。可如果目标都没确定的话,连如何写设,如何找检验统计量都无法确定,更没办法定怎么测试了。
特别注意的是,在一次测试中,是很难兼容两个目标的。比如上边的小例子,如果想提升用户客单价,则要推的是贵的商品,要给的激励是满减型激励,让用户买贵一点。
如果想提升用户消费率,则要推的是便宜的商品,要给的激励是秒杀/超低价,让用户先买一笔再说。这两个目标是很难在一个方案A/B里兼容的。
所以小伙伴们, 千万别信了产品经理/运营“你先测测看看”的鬼话 。如果一开始目标都很混乱,那方案肯定也是四不像,测出来结果乱七八糟,也是很正常的。事前不想清楚,事后只能瞎着急。
注意2:测试方案合理性。 有些测试方案本身设计得就不合理,不是拿相似的方案测试,而是明显一个方案很优惠,一个很鸡肋;一个设计很美观,一个设计很丑陋。这种情况下测了也白测。测试方案本身,要是苹果对苹果,西瓜对西瓜才行。
注意3:测试对象相似性。 还以上边小例子举例。参与测试的用户群体,可能自身在客单价/消费力上就有差异。这种测试特征的差异,会直接导致:结果上的差异是由于客群特征,而非方案A/B造成的。这是最差的情况了,这样不但会导致测试无效,而且会误导业务判断。
四、Aest的局限性
正是由于有以上三点要求,导致ABtest是有门槛的:
要有能力设计相近版本方案;
要有足够开发支持,把方案落地;
要有足够的用户数据,区分用户特征。
这些使得ABtest只有在数据充足、开发充足、业务方充足且没有私心的时候,才能完美落地。因此,虽然ABtest的原理很简单,但是具体应用,还需要结合实际情况做考虑。具体细节,后续再分享。
设检验和ABTEST(一)
零基础是可以培训大数据分析师的,不过要学习相应的知识才可以。
数据分析师属于互联网行业,所以先要学习一些相关的代码。想做数据分析师,代码只是第一步,只有熟练掌握代码,才能在工作中更加高效,为日后的发展空间提供一份保障。推荐学习掌握的代码有SQL、MySQL数据库、Python基础和Python数据分析,这些都是数据分析师所需要的必备技能。
对于零基础的人来说,看书和做笔记可以对数据分析方面的内容了解的更加透彻明白。推荐学习数据分析所需要的书籍有:Python核心编程,掌握编程最基本的技能;MySQL必知必会,学会SQL语句;利用Python进行数据分析,掌握使用Python来做数据分析;通过Python数据分析与挖掘实战,可以学习如何将商业问题转化为数学问题。
最后要学习和掌握的就是Excel的基本操作,包括增删改排筛、各类常用函数的使用、各类基础图表的制作以及数据表等,因为做数据分析师需要经常和数据打交道,需要将数据做成更直观更易观察表达的图表,因此,Excel的基本操作必不可少。
想要了解更多关于大数据分析师的问题可以咨询一下CDA认证机构,CDA是大数据和人工智能时代面向国际范围全行业的数据分析专业人才职业简称。全球CDA持证者秉承着先进商业数据分析的新理念,遵循着《CDA职业道德和行为准则》新规范,发挥着自身数据专业能力,推动科技创新进步,助力经济持续发展。
A/B Test基本原理
参考:
从设检验到AB实验——面试前你要准备什么?
一文入门A/B测试(含流程、原理及示例)
A/B testing(一):随机分配(Random Assignment)里的Why and How
第一类错误和第二类错误的关系是什么?
设检验的逻辑是是什么?
我们在生活中经常会遇到对一个总体数据进行评估的问题,但我们又不能直接统计全部数据,这时就需要从总体中抽出一部分样本,用样本来估计总体情况。
举一个简单的例子:
学而思网校App进行了改版迭代,现在有以下两个版本
版本1:首页为一屏课程列表 ; 版本2:首页为信息流
如果我们想区分两个版本,哪个版本用户更喜欢,转化率会更高。我们就需要对总体(全部用户)进行评估,但是 并不是全部存量用户都会访问App,并且每天还会新增很多用户,所以我们无法对总体(全部用户)进行评估,我们只能从总体的用户中随机抽取样本(访问App)的用户进行分析,用样本数据表现情况来充当总体数据表现情况,以此来评估哪个版本转化率更高。
设检验其实就是反证法,想要证明一个命题是正确的,只能通过证明其否命题是错误的来达到目的。设检验是用统计数据来判断命题真伪的方式。所以通常,先对总体参数提出一个设值,然后利用样本信息判断这一设是否成立
常常会设两个命题:
H0:备受质疑的命题
原设,也叫零设,用H0表示。原设一般是统计者想要拒绝的设。原设的设置一般为:等于=、大于等于>=、小于等于<=。
H1:有待验证的问题
备择设,用H1表示。备则设是统计者想要接受的设。备择设的设置一般为:不等于、大于>、小于<。
两者的联系:
下图中红色阴影部分的面积为α,即第一类错误犯错的概率;黑色的阴影部分的面积为β,即第二类错误犯错的概率。
通常情况下,我们关注α,因为我们是对于H0所以应的样本进行观测和做出判断的,α就是H0与H1交集且在H1的部分(拒绝H0接受H1);而对于β,我们用的是H1对应的样本的总体(有多少样本点导致在前一步计算检验统计量时不拒绝H0)进行判断的,β就是H0与H1交集且在H0的部分(拒绝H1接受H0)。
显著性水平是指当原设实际上正确时,检验统计量落在拒绝域的概率,简单理解就是犯弃真错误的概率。这个值是我们设检验之前统计者 根据业务情况定好的 。
显著性水平α越小,犯第I类错误的概率自然越小,一般取值:0.01、0.05、0.1等
当给定了检验的显著水平a=0.05时,进行双侧检验的Z值为1.96,t值为 。
当给定了检验的显著水平a=0.01时,进行双侧检验的Z值为2.58 。
当给定了检验的显著水平a=0.05时,进行单侧检验的Z值为1.645 。
当给定了检验的显著水平a=0.01时,进行单侧检验的Z值为2.33
检验方式分为两种:双侧检验和单侧检验。单侧检验又分为两种:左侧检验和右侧检验。
双侧检验:备择设没有特定的方向性,形式为“≠”这种检验设称为双侧检验
单侧检验:备择设带有特定的方向性 形式为">""<"的设检验,称为单侧检验 "<"称为左侧检验 ">"称为右侧检验
设检验根据业务数据分为两种:一个总体参数的设检验和两个总体参数的设检验
一个总体参数 的设检验:只有一个总体的设检验
举个例子:学而思App原版本1转化率为 19%,学而思App版本2开发完成后,直接全量发布整体上线,过一段时间后统计转化率为27%,我们想判断版本2是否比版本1好,这时我们做的设检验总体只有1个,全部用户。对于总体只有一个的称为一个总体参数的设检验。
两个总体参数 的设检验:有两个总体的设检验
同样的例子:学而思App版本1和学而思App版本2同时上线,流量各50%,这时我们做的设检验总体有2个,分别为命中版本1的全部用户与命中版本2的全部用户。
两种设检验的检验统计量计算方式有所不同,所以做区分描述。
在判断用什么检验的时候,首要考虑的条件是 样本量 ,其次是 总体服从的分布 。
简单地说其实就是, 总体标准差 怎么估计的问题。检验类型确定了,检验统计量也就确定了。
(不过现在的很多软件简化了上述步骤,改为, 若总体标准差已知(无论样本大小)都用Z检验 ; 若总体标准差未知,都用T检验 。 不过当样本量够大的时候,T分布也近似于Z分布了 ,所以最后的结果不会差很多。 T分布其实是小样本的Z分布。一个样本的自由度越大,样本方差就越接近总体方差,T分布也就越接近Z分布。因此T分布的形状随自由度的变化而变化,自由度越大,越接近正态分布。 )
利用设检验来证明:
第一步: 提出原设和被择设:H0:中医是无效的。 H1:中医是有效的。 H0是我们希望推翻的命题,H1是希望被证实的命题。
第二步:从整体的研究样本中抽样,这里应选择两个总体:两组生理特征和疾病状况一致的人,一组人不给予治疗,另一组给予中医治疗,持续观测两组人的生理数据。
第三步:根据两组人的生理数据构造T统计量(双样本σ未知)进行T检验。
第四步:根据显著性水平确定拒绝域或者P值。
第五步:构造拒绝域,考察0与拒绝域的关系;或者计算p值,比较其与显著性水平的关系。
什么很多的面试要求上,都要求人员掌握数据分析的技能?
一、引入
ABTest,就是做一个测试,在产品设计场景中,为同一个产品目标制定两个方案(比如两个页面一个用这个文案另一个用那个文案,一个用红色的按钮、另一个用蓝色),让一部分用户使用A方案,另一部分用户使用B方案,然后利用埋点可以对用户点击行为数据进行集,并通过统计引擎分析结构化的日志数据,计算相关指标,一般是点击率、转化率、CTR(点击次数/展示量)等,进行设检验,从而得出那个方案更好
ABtest原理很简单。ABtest的难度主要在开发上:开发新版本、进行测试、测试数据回传保存
二、AB Test步骤
ABtest本质上是一个两总体设检验问题,要检验A、B两个版本是否有显著区别。
两总体设检验步骤:
第一步:确定对象和指标。明确要检验的A、B两个对象,版本。以及要检验的指标,是CTR,还是客单价,ARPU
第二步:给出原设/备择设
第三步:选择检验统计量,t 还是F?(t是总体方差未知或小样本,用样本方差代替总体方差。F是总体方差或大样本)
第四步:埋点,获取数据。计算统计量,明确A,B版本是否有显著区别。p值小于显著性水平0.05则推翻原设
确定目标 --> 确定最小样本量 --> 确认流量分割方案 --> 实验上线 --> 规则校验 --> 数据收集 --> 效果检验
三、AB Test例子
某电商平台,想提升用户客单价,运营部门做了两套A、B激励方案,想将流量分成相同的两批测试下效果。已选出两组各12名用户,测试用户客单价如下
H0:方案A客单价均值=方案B客单价均值
H1:两者不相等
解读结论
既然方案A与方案B不同,A的均值又高于B,那么就认为A更好
三、AB Test的局限性
AB Test要求数据充足、开发充足的时候,才能完美落地
且AB测试得到的结果是更优的方案,而不是最优,所以只能作为一种验证性的工具和方法,要得到最优,不可能通过做很多次AB Test,这样成本太大
A/B测试只有在 你要测的KPI指标 可以被电脑量化 时适用,对于声誉,公关等不适用
四、面试题
Q1:什么场景可以做AB测试?
产品迭代场景:界面优化、增加功能
策略优化场景:运营策略优化,算法策略优化(推荐算法)
检验场景:新功能推出,30天内的DAU增加了,那么要通过设检验来测试这个结果是否显著
Q2:为什么要进行ABtest
APP想要存活及增长,精细化运营就变成了必须。往往产品的认知并不是用户的认知,所以我们需要去测试,去实验。类似于医学中的“双盲实验”
Q3:AB Test需要多大的样本?AB Test需要做多久是如何确定的?如果做20天,第10天时感觉结果显著,能不能停止测试?
样本量计算公式:?
Q4:做AB实验的时候,数据对比上涨25%,判定为效果显著,但上线后效果不好,为什么?
样本量不足,结果是随机波动导致
实验时间太短,用户由于新鲜感表现出不可持续的行为
实验人群不等于上线人群
外部环境变化,比如打车场景下,下雨和下雪会导致订单量激增
Q5:谈谈第一类错误,第二类错误
互联网产品案例中,第一类错误(拒真错误):本来是一个好的产品,它本来可以给我们带来收益,但是由于我们统计的误差,导致我们误认为它并不能给我们带来收益。
第二类错误代表的是一个功能改动,本来不能给我们带来任何收益,但是我们却误认为它能够给我们带来收益。
Q6:流量分割有哪两种方式?
Q7:设检验如何选取统计量?
Q7:ABTest有哪些注意事项?
一些效应
① 网络效应:
主要是因为对照组和实验组在一个社交网络导致。如果微信改动了某一个功能,这个功能让实验组用户更加活跃,发更多朋友圈。但是实验组用户的好友可能在对照组,实验组发的多,对照组用户可能就刷朋友圈刷的多,所以本质上对照组用户也受到了新功能的影响,那么ABTest就不再能很好的检测出相应的效果
解决办法:从地理上隔绝用户
② 学习效应:
主要是用户的好奇心理导致。比如产品将某个按钮从暗色调成亮色。很多用户刚刚看到,会有个新奇心里,去点击该按钮,导致按钮点击率在一段时间内上涨,但是长时间来看,点击率可能又会恢复到原有水平
解决方法:一是把时间拉长。二是只看新用户的数据
Q7:如果样本量不足该怎么办
只能通过拉长时间周期,通过累计样本量来进行比较
Q8:是否需要上线第一天就开始看效果?
在做AB测试时,尽量设定一个测试生效期,这一般是用户的一个活跃周期。如用户活跃间隔是7天,那么生效期为7天,如果是一个机酒,用户活跃间隔是30天,那生效期为30天
BOUNUS:
ABtest实验可以分成两种,客户端client实验和服务端server实验
客户端实验一般来说只是UI上的实验,纯粹是展示端的策略;
而服务端的实验是返回给client数据的内容做实验,比如推荐的策略,算法策略等
什么是数据分析?数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。简单来说,就是通过数据解决任何业务问题。
一个业务人员最重要的能力不是你会什么技能,具备什么知识,而是能解决问题,解决问题的前提是发现问题,数据分析恰好可以完成发现问题解决问题的使命。
在日益研究的招聘环境下,不管你是正要进入互联网产品、运营等业务岗位的在校生,还是1-5 年经验的运营、产品、营销、新媒体等从业者,数据分析能力已经是用人单位对业务人员的重要考核点。
今年疫情影响下,相比传统金融行业求职的一片哀嚎,技术类起薪确实比较香,根据2019年首届数据科学理学硕士毕业生就业报告,毕业生平均薪资达到了27w,主要集中在互联网、金融科技、量化领域。
随着大数据技术逐渐渗透到各行各业,数据科学人才将迎来一波红利。而对于本科非理工背景,又想在工作中将业务和技术结合起来的同学来说,数据分析(包含大数据类)无疑是不错的选择。
今天就给大家分享一下几个热门行业数据分析岗位的基本情况:
互联网互联网代表:阿里、腾讯、百度、京东、字节跳动、拼多多、滴滴、美团、shopee(新加坡) 等
1)难度系数:☆☆☆☆☆
2)技能要求:
给大家看看腾讯的数据分析岗位要求
结合之前的面试经验,互联网数据分析的技能包括:
a. 精通SQL,最好是Hive-sql
b. 熟悉统计学理论:统计性描述以及推断性统计,ABtest几乎是面试必考的了
c.机器学习,这部分也需要简单准备一下,像逻辑回归、决策树、随机森林、SVM、xgboost等基础的机器模型,当然python的基础也是要会的
d.对业务的认知,数据分析最重要的目的是要支撑到业务的落地,因此对业务的认知才是数据分析的出发点,对于应届生来说,如果有实习经验那是最好的了,对业务思维的认知就会更加深刻,如果没有实习,那就得多了解一些理论知识了,比如产品领域的海盗模型、用户行为分析等,甚至可以用一些咨询case练习的结构化思维来强化这方面的分析能力
3)薪资水平
数据分析的薪资一般是介于产品岗和开发/算法岗之间,不同互联网公司的数分岗起薪在22w-30w+不等。
银行金融科技金融科技代表:中国银行、建设银行、工商银行、交通银行、招商银行、平安银行等技术类管培生招人,其科技子公司(如:建信金融科技)也招人
1)难度系数:☆☆☆,银行历年都是校招大户,这些年随着信息技术发展,金融科技相关专业的岗位开放如雨后春笋。当然,银行技术岗相对互联网的技术难度系数较低,之前有个段子来自某拿了建行科技类职位offer的同学,“笔试不会,面试吹水,就这么拿了offer"。如下是2019年春招建行的招聘,多地分行的“技术类专项人才”需求达到三位数。
好进 + 起薪不低 + 业绩压力小 + 失业风险低,它不香吗?
2)岗位要求:
以建行信科大数据方向岗位职责为例:
银行科技类岗位的技能主要有两个特点:
一是技能要求,部分数据岗更偏数据开发一些,日常工作可能和数据建设、数据平台打交道;
二是分配方式,可能会统招统分,例如数据岗可能不细分具体的数据岗位(如:数据开发/分析/挖掘等),进去之后可能会分配到业务部门,也可能分配到中后台部门。
3)薪资水平
这个和银行本身属性有关,国有银行的的金融科技岗起薪不算太高,但工作强度小、好(单位租房、交通补贴、餐饮补贴、不需要996等);股份制银行的金融科技,如招银科技,工作强度不亚于互联网,当然薪资也不比互联网低。
券商基金券商基金代表:南方基金、嘉实基金、中金、九坤、宽德、一众券商等
在这个类别里主要有两类,一类是金融机构里的数据工程师,另一类是金融工程类。数据工程师做的事情跟传统的数据开发工程师相似,薪资也没有显著优势,所以这里就着重讲讲金融工程岗位。
1)难度,☆☆☆☆☆,金融工程岗位也是这几年的抢手货。之所以说数据分析和金融工程有关联,主要是目前的数据分析类专业一般是由理工学院和经管学院联合办学,学生对机器学习/深度学习以及金融知识都有所涉猎。而最近几年,使用人工智能进行量化因子挖掘以及选股策略构建在业界变得火热起来,无论是卖方还是买方都在进行这方面的尝试,因此数据科学专业的毕业生也有了进入量化领域的机会。但是难点在于,金融工程专业的毕业生在此方面也十分精通,且拥有更加全面的金融知识,因此竞争也是比较激烈。
2)岗位要求:
这是华夏基金的金融数据挖掘工程师岗位:
所需能力,主要是三点:
a.必须精通一门编程语言,Python/MATLAB/C++;
b.有金融数据分析的能力;
c. 熟练掌握统计模型及机器学习模型,懂原理、能调包实现,最好能建模
3)薪资水平
券商基金的薪资基本无上限,看个人绩效拿奖金,底薪大多20w上下
事业单位系事业单位代表:上交所技术、深交所金融科技、深圳市/区及其研究院
1)难度:不太好评估,身边的样本较少,技术难度可能低于互联网,但是由于招聘名额也较少,所以实际竞争比其实不低,同时也会比较关注学历背景
2)薪资水平:基本和公务员齐平,一线城市的公务员和事业单位待遇都不低,加班和失业的机会也比较少,可以说是性价比较高的一份工作,不说了,就两个字,羡慕。