数据分析必备原理思路和主流数据分析方法
数据分析必备原理思路和主流数据分析方法
在数据驱动决策的时代,数据分析已经成为企业提升竞争力的关键工具。本文将带你深入了解数据分析的基本原理、思路和主流分析方法,帮助你掌握用数据指导业务的实用技能。
一、什么是数据分析
使用数据指导业务、基于数据量化生产。数据的优势在于可以反复使用、客观、量化、机器可处理(自动化),使其成为质量最好、效率最高的信息形式。答案:只要是基于量化的信息提升生产力,就是数据分析。
二、数据分析如何在企业发挥价值
问题:企业到底有哪些问题需要用数据分析去解决?
1. 问题分类
企业所有需要用数据分析去解决的问题大致可以分为四类:是什么、为什么、怎么做、做多少。
1.1 是什么
本质:用数据去量化企业当前的经营现状或者业务事实
即把业务细节都转换成具体的数据,然后通过图表呈现业务到底发生了什么。这类问题是通过数据解决后面几类问题的基础。
1.2. 为什么
日常业务中,我们会发现各种数据上的差距和异常,为了达到既定的业务目标,我们就需要探究背后的成因,探究成因的方法还是看数据。
思路:通过各种分析方法拆解问题,找出可能影响结果的原因,然后一个个看这些原因所对应的数据跟差距和异常数据之间的相关性,最后通过数据验证到底是哪些原因实际对数据产生了影响。
1.3 怎么做
在搞清楚问题的原因后,给出具体的行动策略
- 多视角分析(现有方案的)优劣势:比如投入产出比、预计的未来成本、现金流能支撑这个模式到什么时候、可能产生的问题等等
- 数据实验:验证策略的可行性,既然不知道哪个好,就都小范围地测试一下,根据收集到的数据给出优化的建议。其中,最常见的形式就是做AB测试,并且往往要在多轮测试后,才能迭代出最终的解决方案。
- 这类问题直接关系到公司未来的战略方向和大大小小的决策,是四类问题中最难解决的。
1.4 做多少
找方向意味着对抗未知,而做多少就是在已有的方向上进行各种计算。
具体的有业务目标、绩效方案、业务模型等一系列的测算,目的都是计算出使当前策略投入产出比最高的过程参数。
它们会决定具体执行时每个环节用多少人、花多少钱、最终投入多少资源。需要注意的是,这类问题的背后是做人和向上管理。
这类问题的背后是做人和向上管理
2. 具体流程
2.1 是什么 + 为什么(初级分析师)
解决是什么和为什么两类问题的关键是通过数据量化现状,并且找到数据之间的关联性。具体的流程共有三个阶段,分别是思考问题、处理数据、输出结论。
2.1.1 思考问题
2.1.1.1 确认问题
(1) 三要素:目的、背景、思路
- 背景不清晰:这里并没有给出业务下滑的定义,解决问题的人就需要去猜,下滑的到底是拉新、转化、营业额还是利润等
- 问题当前的解决思路没有同步:解决问题的人就需要重新收集信息,梳理思路,最后大概率会得出一些你已有的结论,导致大家在同一个问题上重复做功。
(2) 万能问题确认公式
(3) 检查数据准确性(避免看错 + 避免算错)
在借助三要素确认好问题之后,不要忘了检查一下问题所对应的数据是否准确,以避免乌龙。例如,同事说下滑了10%,我们自己就要去看看是10%还是同事把数据看错了。如果数据过于异常,还要检查一下数据的处理和计算。
2.1.1.2 拆解问题
学习大量经典分析框架,再搭建自己的分析矩阵。
以5月1日营业额下滑的问题为例:
这样将问题拆解后,就能一个个环节深入地进行分析,最后判断出到底是哪个环节导致了最后的下滑。分析很多时候都是在不停地找角度然后深入拆解,这个角度不行就换一个,反复套娃拆解后总能发现答案。在拆解完成后,我们就要将拆解的元素转化为数据,进行量化的分析了。
2.1.1.3 量化数据
将想到的数据一个个转化为具体的表格格式:因为数据还未知,所以我们要填充的就是列名。除此之外,每一列的数据格式和统计口径都要想清楚。
(1) 数据格式
通常有日期、字符串、数字。
(2) 统计口径
什么时候一个数据才算有效数据?
要结合分析的目的和实际的业务场景进行确定,每一个指标的统计口径都应该有具体的描述。
2.1.2 分析数据
2.1.2.1 收集数据
API应用到爬虫:约定好规则后,给你一个访问地址,就能在规则内获取对方允许的数据。现在各大平台都有自己的API可以接入获取数据,虽然没有爬虫那么自由,但是安全性和稳定性都要高不少,合理又合法。
2.1.2.2 处理数据
2.1.2.3 制作图表
将经过清洗的标准数据借助工具处理成我们需要的各种图表。
如果是制表,主要是透视表和各种报表,在Excel里可以通过插入透视表和各种函数实现,目的是各类信息的汇总和突出,是非常实用的一种数据展现形式。不过报表信息过于丰富,甚至有一些冗余,也正是报表的问题所在。如果是多用户协作,就要进行更加高效的信息传递,这个时候就要做图了。一张优秀数据图的标准,正是要符合人的视觉直觉,让人看一眼就获取到信息。
无论是做表还是做图,都要顺着分析思路去做。怎样的问题,适合怎样的图表去表达,也有其一一对应的逻辑,可以说,这是数据分析里非常有魅力的一步。
2.1.2.4 上传发布
借助数据智能工具,比如Tableau和PowerBI,将图表发布为一个个可以访问的网页。
2.1.3 输出结论
一句话 + 一幅图足矣,很多复杂问题的本质其实都非常简单。
当然只靠分析师,很多问题的成因还是无法准确地判断,因为数据只是一件事全部信息的一部分,还有很多非量化的信息需要我们和数据放到一起去考虑,这个时候就要和业务一起,基于已经定位的成因,再进行更加深入的分析,不断循环以上解决问题的流程,最终得到一个和业务场景向结合的准确原因。
2.2 怎么做 + 做多少(资深分析师)
整体上,“思考问题”和“分析数据”这两步还是有的,第三步从“输出结论”变成了直接基于结论输出策略,这也意味着,我们不仅要对历史的原因进行总结,更要基于历史数据对未来应该怎么做给出规划。在输出策略后,我们还要进一步设计数据实验验证策略的有效性。当策略有效,更要保证策略被正确地执行。至此,思考问题、分析数据、输出策略、验证策略和沟通跟进这五个阶段组成了基于数据分析解决企业实际问题的全流程。
2.2.1 思考问题和分析数据
在思考问题这里,不能被动等待需求了,一定要主动出击发现问题。深入业务,你就会发现各种各样的问题,比如增长、营收、成本、人员效率……
此时,我们首先要准确地定义问题,比如某天成本增加了3%,这种不大不小的变化到底算不算一个问题,它是正常波动还是一个值得研究的机会,这些都需要我们做出判断。
而发现并定义问题后,更要决定轻重缓急,选择解决哪些最关键的问题。思考问题的思路变化:
这其实也是所有业务高管和高级分析师都必须具备的能力。
而选择问题后的思考过程一直到分析数据的工具操作,基本上都与是什么和问什么这两类问题的流程一致。
2.2.2 输出策略
除了一句话一幅图说明问题外,我们还要基于导致问题的原因,广泛地收集各种可以解决问题的策略。收集的方法可以使自己基于业务思考,也可以是多进行内部和外部的交流,日入多参加一些活动讲座、多看一些与自己业务相关的文章和书籍,同时,不能只着眼于眼前的问题,很多觉得可能用得上的知识也要积累。
在积累到你可以想到不止一种策略师,既要对策略进行对比了。此时还是要借助分析矩阵,至少要列出每一个策略的优劣势,必要时好要先进行一些测算,测算所需要的参数在各种研究报告里基本都能找到。在对比后,往往会确认几个具体的解决方案。大厂这个时候一般会开始赛马,几组人各做一个然后进行比较;小厂则会进一步分析方案的投入产出比,先做一个再做一个。分析师往往需要出包含数据和策略的详细分析报告作为参考,更要参会讨论具体的执行方案。
2.2.3 验证策略
在执行方案确定后,我们就要通过小规模的实验来判断执行方法到底有没有效果了,实验结果好才会进行大规模的应用。说起数据实验,大家最熟悉的应该就是AB测试了。
在多轮的实验后,大家基本可以迭代出有效的高价值的业务策略。在这之后,分析师依旧会通过系统的分析报告和业务一起输出最后的成型方案。
2.2.4 沟通跟进
跟进策略的具体执行情况,获得自己策略的后续反馈,最后这一步往往是最容易让人忽略的一步。
三、主流的数据分析方法与框架使用
分析框架的目的和使命就是拆解。试想,拿到一个问题,如果只从表面进行分析,很难发现背后隐藏的原因,而借助框架把问题拆解后,就能进一步地细分问题,从而找到解决的方法和角度。
所有的分析方法和框架,基本上都能概括为:一个原则,四类方法。
这个原则就是MECE原则,它要求拆解出的各个部分都要满足相互独立、完全穷尽这两个条件。时刻谨记MECE法则,用MECE检验我们的拆解结果,能摆正我们将问题拆分为一个个清晰有效又没有遗漏的单元,可以很好地提升我们思考问题的全面度。
四类方法:时间流程法、模型框架法、量化公式法、穷尽要素法。
1. 时间流程法
最常用的一类,就是根据时间顺序对问题进行拆解,只不过在不同的场景下会选择不用的划分方式罢了。
其中最常见的当属漏斗分析,比如最经典的AARRR模型,就是将用户接触产品的过程划分为了五个经典环节:获取、激活、留存、收益、传播。
可以说所有商业产品的用户,都会经历以上五个环节。因此这种划分方式,也就成为了分析用户路径的经典模型。不过,就和任何模型一样,AARRR也只是一种仅供参考的基础思路,在真实业务场景下,每家公司都会基于自己的业务情况对它进行变形。例如将收益环节进一步地细分为初次购买和复购,或者在收益环节后增加一个用户流失再召回的分支。甚至完全根据自己的产品流程,重构整个用户链路:
除了AARRR这种根据业务流程进行划分的漏斗模型外,还有PDCA和精益创业这两大框架,它们都对合理规划、实现并迭代产品给出了自己的路径。----框架和模型有什么区别?
PDCA更偏重于质量管理,强调做事情一定要先规划再执行,并且要定期检查过程中出现的问题,并予以解决,是一种可以持续提升指向质量的执行框架。
精益创业模型则强调根据想法快速构建产品,并基于数据反馈快速迭代创业流程。这种流程的优点是前期投入小,可以快速尝试很多思路方向,最后只选择数据表现最好的进行规模化。案例:某音。
基于时间采取不同的划分方式,会得到完全不同的分析框架。在实际的操作中,大家可以先划分出问题从产生到必经的几大阶段,然后子啊每个阶段内逐层向下拆解。直到拆出的部分能够精确地定位到问题产生的原因
2. 模型框架法
比如SWOT和RFM,他们的共同特征都是基于几个完全平行的分析维度,对问题进行划分。
当然也有只在一个维度对问题进行划分的,比如最简单的优劣势比较、投入产出比分析还有之前提到过的A/B测试,它们都是仅从一个维度,将事物分成几个独立的部分进行分析。而SWOT是从两个维度各自一分为二,得到四个区间。RFM则是三个维度,最后得到八个区间。
举个栗子:假设我是一款音乐APP的数据分析师,会员续费是我们主要的收益来源。如果我们发现收益逐月下降,除了最经典的从用户流程上进行拆分,检查各环节的转化率之外,我们还可以选取多个维度跟是否续费进行交叉,例如使用时长、用户年龄、有无续费优惠、初次购买会员是否参加活动,对这个问题进行全方位的分析。只要一一基于数据进行对比,总能准确定位到影响用户续费的原因。
凡事遇到需要对比分析的,上框架准没错。
3. 量化公式法
只要涉及到指标计算,都可以用公式法进行拆解。
例如:
还可以基于某个转化率继续向下拆解,可以说只要指标公式成立,就能保证我们的拆解符合MECE原则。
4. 穷尽要素法
它的精髓在于将整体分为不同的构成部分,相当于从时间之外的维度对整体进行划分。
例如性别可以分为男、女、其他,年龄可以分为婴幼儿、少年、青少年、青年、中年、老年、其他。而在实际的业务场景中,常把用户分为各种类型,比如电商领域最经典的八大人群:
这是天猫和贝恩在2019年中国快消品线上策略人群报告提出的人群划分概念。报告基于中国消费者的基础属性、消费认知、消费偏好和各行业的人群属性标签,将中国的消费人群划分为了以上八类。而这八类人群约占大多数快消平台用户数的八成,更是贡献了九成以上的销售额。
可以说,穷尽要素法非常灵活,不受时间和特定维度的限制,并且只要你的拆解能穷尽问题的各个部分,往往能快速找到问题的答案。当然,穷尽要素法因为拆解的方式不固定,往往需要有一定的业务经验和积累,不然很容易对着问题不知道怎么拆。
所以大家在初学阶段,可以主要使用前三种拆解方式较为固定的方法,对业务的理解加深后,再用穷尽要素法进行更加灵活全面的拆解。