向谷歌、HubSpot和Shopify的专家们关于A/B测试、转化研究、创意优先级、测试分析和档案管理的知识。
无论你是经验丰富的企业家,还是刚刚起步的创业人,你可能已经看到无数关于A/B测试的文章和资料。或者,你可能已经在测试电子邮件主题行或社交媒体的帖子。
尽管在市场营销领域,关于A/B测试的讨论很多,但许多企业家在实践中却常常遇到困难,甚至是基于不准确的测试结果,做出重大商业决策。
A/B测试常常被过于简化,而本文将介绍为电商不同类型的A/B测试所需的一切信息,尽可能简单而又实用地解释。A/B测试可以在选择正确的产品定位、提高落地页的转化率等方面改变游戏规则。
什么是A/B测试?
A/B测试,也称为分割测试,是比较同一网页、电子邮件或其他数字资产的两个版本,以确定哪个版本在用户行为方面表现更好的过程。
这是改善营销活动表现和更好理解目标受众转化的有用工具。A/B测试使你能够回答重要的商业问题,帮助你从现有流量中产生更多收入,并为数据驱动的营销策略奠定基础。
A/B测试如何运作?
- 定义目标。确定A/B测试的目标,例如提高转化率、点击率或整体销售额。
- 选择测试元素。你可以测试标题、图像、电子邮件主题行、行动号召(CTA)、定价、布局等。
- 创建变体。开发元素的两个版本:版本A是你资产的原始版本,称为“控制”。版本B是你想要测试的更改的新版本,称为“变体”。在营销的背景下,你向50%的访客展示版本A,向另外50%的访客展示版本B。
- 运行测试。在预定时间内向两个组展示相同的版本。例如,如果你正在测试电商网站的主页CTA按钮,你可能会运行两周的测试,以获得统计显著的结果。
- 收集数据。监测和测量两个版本的转化、点击、参与度和销售情况。
- 分析结果。比较版本A和版本B的表现,以确定哪个更有效地满足你的目标。转化率最高的版本获胜。
- 找到最优结果。如果版本B的转化率最高,则宣布其为赢家,并将100%的访客引导至该版本。这将成为新的控制版本,你必须设计另一个变体以便于未来的测试。
💡注意:A/B测试的转化率通常可能不是成功的完美衡量标准。
例如,如果你在一个页面上将商品定价为50元,而在另一个页面上则完全免费,这不会提供任何真正有价值的见解。与你为业务使用的任何工具或策略一样,它必须是战略性的。
这就是为什么你应该跟踪转化的价值,直到最终销售。
什么时候进行A/B测试?
如果你正在运行一个流量较低的网站或网络或移动应用程序,A/B测试可能不是最好的优化努力。例如,你可能会通过进行用户测试或与客户交谈来获得更高的投资回报率(ROI)。尽管有普遍的看法,转化率优化并不以测试开始和结束。
为什么是两到四周?请记住,你希望测试至少运行两个完整的业务周期。通常,这相当于两到四周。现在也许你在想:“没问题,我会将测试运行超过两到四周,以达到所需的样本量。”这也行不通。
测试运行得越久,越容易受到外部有效性威胁和样本污染的影响。例如,访客可能会删除他们的Cookies,重新进入A/B测试,成为新的访客。或者有人可能会从手机切换到桌面,看到不同的变体。
本质上,让你的测试运行太久可能会像不让它运行足够长一样扭曲结果。
对于能够在两到四周内达到所需样本量的商店,测试是值得投资的。无法满足这一要求的商店应考虑其他优化形式,直到他们的流量增加。
A/B测试设置流程
优先考虑A/B测试创意
一大堆A/B测试示例令人兴奋,但对于决定测试什么并没有帮助。你该从哪里开始?这就是优先级的重要性。
你可以使用几种常见的A/B测试优先级框架:
- ICE。ICE代表影响、信心和易用性。每个因素都获得1到10的评分。例如,如果你可以轻松独立运行测试,而无需开发人员或设计师的帮助,你可能会给易用性打8分。你在这里使用自己的判断,如果有多个人在运行测试,排名可能会变得过于主观。制定一套指导方针有助于保持客观。
- PIE。PIE代表潜力、重要性和易用性。同样,每个因素都获得1到10的评分。例如,如果测试将覆盖90%的流量,你可能会给重要性打8分。PIE与ICE一样主观,因此该框架也可以使用指导方针。
- PXL。PXL是教育平台CXL的优先级框架。它有点不同,更可定制,迫使更客观的决策。你会发现是/否问题和易于实施的问题,而不是三个因素。例如,框架可能会问:“该测试是否旨在提高动机?”如果是,则得1分。如果不是,则得0分。
- 一旦你有了想法,分类你的创意也会有所帮助。例如,在某些转化研究中,你可以使用三个类别:实施、调查和测试。
- 实施。直接去做。它是破损的或显而易见的。
- 调查。需要额外的思考来定义问题或缩小解决方案。
- 测试。这个想法是合理的,并且是数据驱动的。测试它!
通过这种分类和优先级,你将准备好开始A/B测试。
制定假设
在你测试任何东西之前,你需要有一个假设。例如,“如果我降低运费,转化率将会提高。”
别担心——在这种情况下形成假设并没有那么复杂。基本上,你需要测试一个假设,而不是一个想法。假设是可衡量的,旨在解决特定的转化问题,并关注洞察而非胜利。
在编写假设时,使用Craig Sullivan的假设工具包中的公式会有所帮助:
- 因为你看到[插入来自研究的数据/反馈]
- 你预计[你正在测试的变化]将导致[你预期的影响],并且
- 你将使用[数据指标]来衡量这一点
简单吧?你只需填写空白,你的A/B测试想法就转变为假设。
选择A/B测试工具
现在你可以开始选择A/B测试工具或分割测试服务。通常,你首先想到的会是Google Optimize、Optimizely和VWO。这些都是不错的、安全的选择。
以下是这些流行A/B测试工具的更多信息:
- Google Optimize。免费,除了某些多变量限制,如果你刚开始使用,这些限制不会对你产生影响。它在执行Google Analytics A/B测试时效果很好,这是一个加分项。
- Optimizely。即使没有技术技能,也很容易启动小型测试。Stats Engine使分析测试结果变得更容易。通常,Optimizely是三者中最昂贵的选项。
- VWO。VWO拥有SmartStats,使分析更容易。此外,它还有一个很好的所见即所得(WYSIWYG)编辑器,适合初学者。每个VWO计划都包括热图、现场调查、表单分析等。
在Shopify应用商店中,还有其他A/B测试工具,你可能会发现它们很有帮助。
一旦你选择了A/B测试工具或分割测试软件,请填写注册表并按照提供的说明进行操作。不同工具的过程有所不同。通常,你需要在网站上安装代码片段并设置目标。
如何分析结果?
如果你正确制定假设,即使是失败的测试也是一种胜利,因为你将获得可以用于未来测试和业务其他领域的洞察。因此,当你分析测试结果时,你需要关注洞察,而不是测试是赢是输。总有东西可以学习,总有东西可以分析。不要忽视失败者!
这里最重要的是需要进行细分。一个测试可能整体上是失败的,但它在至少一个受众细分中表现良好。
以下是一些受众细分的示例:
- 新访客
- 回访访客
- iOS访客
- Android访客
- Chrome访客
- Safari访客
- 桌面端访客
- 平板访客
- 自然搜索访客
- 付费访客
- 社交媒体访客
- 已登录买家
很可能假设在某些细分中得到了验证。这也告诉你一些事情。
分析远不止于测试是赢家还是输家。对数据进行细分,以发现表面下的隐藏洞察。
A/B测试软件不会为你进行此分析,因此这是一个需要随着时间推移而发展的重要技能。
归档测试结果
假设你明天运行第一次测试。两年后的明天,你还会记得该测试的细节吗?不太可能。
这就是为什么归档你的A/B测试结果很重要。没有良好维护的档案,你获得的所有洞察都将丢失。此外,如果你没有归档,很容易重复测试同一内容。
不过,没有“正确”的方法来做到这一点。你可以使用像Effective Experiments这样的工具,或者使用简单的电子表格。特别是在刚开始时,这完全取决于你。
无论你使用什么工具,请确保跟踪以下内容:
- 测试的假设
- 控制和变体的截图
- 成功或失败
- 通过分析获得的洞察
随着你的成长,你会感谢自己保持这个档案。这不仅会帮助你,也会帮助新员工和顾问/利益相关者。
A/B测试示例
技术分析
你的商店在每个浏览器上是否加载正常且快速?在每个设备上?你可能有一部崭新的智能手机,但某个地方仍然有人在使用2005年的翻盖手机。如果你的网站无法正常快速运行,它的转化率肯定不会达到最佳。
现场调查
这些在你的商店访客浏览时弹出。例如,现场调查可能会询问在同一页面停留较长时间的访客,是否有什么因素阻碍他们今天进行购买。如果有,那是什么?你可以利用这些定性数据来改善你的文案和转化率。
客户访谈
没有什么能替代与客户通话。为什么他们选择你的商店而不是竞争对手的商店?他们在访问你的网站时试图解决什么问题?你可以问出一百万个问题,以深入了解你的客户是谁,以及他们为什么真正选择你。
客户调查
客户调查是针对已经购买过的人的完整调查(与访客不同)。在设计客户调查时,你要专注于:定义你的客户、定义他们的问题、定义他们在购买前的犹豫,以及识别他们用来描述你商店的词语和短语。
分析分析
你的分析工具是否正确跟踪和报告你的数据?这听起来可能有些傻,但你会惊讶于有多少分析工具配置不正确。分析分析的关键在于了解访客的行为。例如,你可能会关注漏斗:你的最大转化漏斗泄漏在哪里?换句话说,大多数人在哪里退出你的漏斗?这将是开始测试的好地方。
用户测试
这是你观察真实用户在付费的受控实验中尝试在你的网站上执行任务的地方。例如,你可能会要求他们找到一款价格在40到60元之间的视频游戏并将其添加到购物车。在他们执行这些任务时,他们会大声叙述自己的想法和行动。
会话回放
会话回放类似于用户测试,但现在你面对的是有真实金钱和购买意图的真实用户。你将观察实际访客如何浏览你的网站。他们在寻找什么时遇到困难?他们在哪些地方感到沮丧?他们在哪些地方似乎感到困惑?
还有其他类型的研究,但请先选择最适合你的A/B测试方法。如果你尝试其中一些,你将拥有大量值得测试的数据驱动想法。
专业人士的A/B测试流程
现在你已经了解了标准的A/B测试教程,让我们看看专业人士的具体流程。
KS Digital公司——克丽丝塔·赛登(Krista Seiden)
我进行网页和应用程序A/B测试的逐步流程从分析开始——在我看来,这是任何良好测试程序的核心。在分析阶段,目标是检查你的分析数据、调查或用户体验数据,或你可能拥有的任何其他客户洞察,以了解优化的机会在哪里。
一旦你从分析阶段获得了一系列良好的创意,你可以开始假设可能出现的问题以及如何潜在地修复或改善这些优化领域。
接下来,是时候构建并运行你的测试。确保在合理的时间内运行它们(我默认两周,以确保考虑到周与周之间的变化或异常),当你有足够的数据时,分析结果以确定赢家。
在这个阶段花一些时间分析失败者也很重要——你可以从这些变体中学到什么?
最后,你可能只有在为稳固的优化程序打下基础后,才能达到这一阶段,是时候考虑个性化了。这不一定需要复杂的工具,而是可以基于你对用户的数据。
营销个性化可以简单到将正确的内容定位到正确的位置,也可以复杂到根据单个用户行为进行定位。但请不要一下子就跳入个性化的部分。确保你首先花足够的时间来掌握基础。
Omniscient Digital公司——阿里克谢·布瑞克(Alex Birkett)
从高层次来看,我尝试遵循以下流程:
- 收集数据,确保分析实施准确。
- 分析数据并寻找洞察。
- 将洞察转化为假设。
- 根据影响和易用性进行优先级排序,并最大化资源分配(尤其是技术资源)。
- 运行测试(在我所知和能力范围内,遵循统计最佳实践)。
- 分析结果,根据结果实施或不实施。
- 根据发现进行迭代,并重复。
简单来说:研究、测试、分析、重复。
虽然这个过程可以根据上下文(我是在测试一个关键的产品功能?一个博客文章的CTA?风险特征和创新与风险缓解的平衡是什么?)而有所偏离或变化,但它适用于任何规模或类型的公司。
关键是这个过程是灵活的,但它也收集了足够的数据,包括定性客户反馈和定量分析,以便能够提出更好的测试想法并更好地优先排序,从而能够为你的在线商店引流。
Online Dialogu公司——吨·韦塞尔(Ton Wesseling)
我们在优化客户旅程时总是回答的第一个问题是:这个产品或服务在我们在Online Dialogue创建的ROAR模型中适合哪个阶段?你是否仍处于风险阶段,在那里我们可以进行大量研究,但无法通过A/B测试在线实验来验证我们的发现(每月低于1,000次转化),还是你处于优化阶段?甚至更高?
- 风险阶段:大量研究,这将转化为从商业模式转变到全新的设计和价值主张。
- 优化阶段:大型实验将优化价值主张和商业模式,以及小型实验以验证用户行为假设,这将为更大的设计变更积累知识。
- 自动化:你仍然拥有实验能力(访客),这意味着无需验证用户旅程的全部测试潜力。剩下的应该用于开发,以便现在更快地增长(而不关注长期学习)。这可以通过运行多臂老虎机/使用算法来实现。
- 重新思考:你停止添加大量研究,除非是转向新的事物。
因此,网页或应用程序的A/B测试仅在ROAR的优化阶段及以上(直到重新思考)时才是一个重要的事情。
我们进行实验的方法是FACT & ACT模型:
我们进行的研究基于我们的5V模型:
我们收集所有这些洞察,以提出一个主要的基于研究的假设,这将导致基于通过桌面或移动A/B测试收集的数据优先排序的子假设。假设越有可能为真,排名就越高。
一旦我们知道我们的假设是对还是错,我们就可以开始结合学习,并通过重新设计/重新调整客户旅程的更大部分来迈出更大的步伐。然而,在某个时候,所有获胜的实施都会导致局部最大值。然后,你需要采取更大的步骤,以便能够达到潜在的全局最大值。
当然,主要的学习成果将在公司内部传播,这将导致基于你验证的第一方洞察的广泛优化和创新。
你是否在向国际受众营销?了解如何通过伪本地化使该过程变得简单。
Pinterest公司——朱利安·斯塔罗斯肯库(Julia Starostenko)
实验的目的是验证对现有网页进行更改将对业务产生积极影响。
在开始之前,确定进行实验是否确实必要很重要。考虑以下场景:有一个点击率极低的按钮。降低该按钮的性能几乎是不可能的。因此,验证对按钮的建议更改的有效性(即运行实验)就没有必要。
同样,如果对按钮的建议更改很小,可能不值得花时间设置、执行和拆除实验。在这种情况下,应该直接将更改推广给所有人,并监测按钮的性能。
如果确定运行实验确实有益,下一步是定义应该改善的业务指标(例如,提高按钮的转化率)。然后,我们确保适当的数据收集到位。
完成后,受众被随机分配,进行分割测试:一组显示按钮的现有版本,而另一组则显示新版本。监测每个受众的转化率,一旦达到统计显著性,就确定实验的结果。
CXL公司——皮普·拉贾(Peep Laja)
A/B测试是更大转化优化图景的一部分。在我看来,这80%是关于研究,只有20%是关于测试。转化研究将帮助你确定首先要测试的内容。
我的流程通常如下(简化总结):
- 使用像ResearchXL这样的框架进行转化研究,以识别你网站上的问题。
- 选择一个高优先级问题(影响大量用户且严重的问题),并尽可能多地头脑风暴解决方案。根据你的转化研究洞察来指导你的创意过程。确定你希望在哪个设备上运行测试(你需要将移动A/B测试与桌面分开进行)。
- 确定你可以测试多少个变体(基于你的流量/交易水平),然后选择你最佳的一到两个解决方案进行对照测试。
- 绘制确切的处理流程(编写文案,进行设计更改等)。根据更改的范围,你可能还需要包括设计师来设计新元素。
- 让你的前端开发人员在你的测试工具中实施处理流程。设置必要的集成(Google Analytics)并设定适当的目标。
- 对测试进行质量检查(破损的测试是A/B测试最大的杀手),以确保它在每个浏览器/设备组合上都能正常工作。
- 启动测试!
- 一旦测试完成,进行后测试分析。
- 根据结果,实施赢家、对处理流程进行迭代,或者去测试其他内容。
A/B测试中的常见错误
同时测试太多变量
当你同时比较两个变量时,可能无法确定哪个更改导致了效果。
假设你想优化一个落地页。与其仅测试一个标题,不如测试:
- 行动号召文本
- CTA按钮颜色
- 头部图像
- 标题
转化率上升,但你无法确定是什么更改导致的。如果你一次只测试一个变量,你可以隔离每个更改的影响并获得更准确的结果。
💡注意:如果你想了解多个变量如何相互作用,多变量测试是一个选项。但要运行多变量测试,你需要更多流量,并且页面需要已经优化良好,以便进行渐进式改进。这个过程比运行A/B测试复杂得多。
样本量不足
A/B测试结果的可靠性取决于使用的样本量。小样本可能导致假阳性和假阴性,使你难以判断差异是由于更改还是随机机会造成的。
想象一下,你正在测试两个版本的产品页面,以查看哪个版本的购买率更高。你分配了流量,但版本A只有100个访客,版本B也只有100个访客。
如果版本A的转化率为6%,而版本B的转化率为5%,你可能会认为版本A更好。但是,仅有100个访客的情况下,这并不具有统计显著性。如果你测试更多访客,结果可能会有所不同。
确定健康样本量的最佳方法是使用样本量计算器。
测试周期过短
至少运行你的A/B测试一个完整的业务周期,理想情况下是两个完整的业务周期。不要仅仅因为你达到了显著性就停止测试。你还需要满足预定的样本量。最后,不要忘记以完整周为单位运行所有测试。
为什么是两个完整的业务周期?首先,两轮有助于你考虑:
- 需要“考虑一下”的买家。
- 不同的流量来源(Facebook、电子邮件通讯、自然搜索等)。
- 异常情况。例如,你的周五电子邮件通讯。
两个业务周期通常足够长,可以获得有关目标受众用户行为的有价值见解。
如果你使用过任何类型的A/B测试落地页测试工具,你可能会熟悉小绿色“统计显著”图标。
不幸的是,对许多人来说,这标志着“测试已经结束,停止吧”。正如你将在下面了解到的,虽然A/B测试的统计显著性已达到,但这并不意味着你应该停止测试。
忽视用户细分
如果你不考虑不同的用户细分,你将获得可能不适用于所有人的一般化结果。
按人口统计、行为或其他相关因素对用户进行细分是有帮助的。对新用户有效的内容可能对回访用户无效。如果不进行细分,你将疏远关键用户群体,并危及测试的完整性。
为你的业务优化A/B测试
你掌握了流程,你拥有了力量!所以,去吧,获取最佳的A/B测试软件,开始测试你的商店。没过多久,这些洞察将汇聚成更多的收入。
如果你想继续学习优化,可以考虑参加免费的课程,例如Udacity的谷歌A/B测试课程。你可以学习更多关于网页和移动应用A/B测试的知识,以提升你的优化技能。
A/B测试常见问题
什么是A/B测试?
在最基本的层面上,A/B测试是测试两个版本的内容,以查看哪个表现更好。你可以A/B测试与你的业务相关的各种内容,包括社交媒体帖子、内容、电子邮件和产品页面。
A/B测试的一个例子是什么?
A/B测试的一个例子是对两个略有不同的产品页面进行付费流量测试,以查看哪个页面的转化率更高。为了确保你的A/B测试能够提供有价值的见解,建议你对给定页面的流量超过5,000名访客。
人们为什么使用A/B测试?
A/B测试使人们能够测试网页、应用程序或营销活动的两个版本,通过同时向不同的用户细分展示不同的版本。它帮助他们确定哪个版本获得了更多的转化、参与或销售。
社交媒体上的A/B测试的一个例子是什么?
社交媒体上的A/B测试的一个例子可能是测试Instagram广告的有效性。例如,你可以制作两个版本的广告,每个广告使用不同的媒体,然后分析哪个版本获得了更多的点击和销售。