统计分析方法选择与案例解析

版权申诉
0 下载量 37 浏览量 更新于2024-06-25 收藏 2.67MB PPT 举报
"统计分析思路,包括常用统计方法选择、案例分析,主要涉及单变量、双变量或多变量的分析,以及单样本、两样本或多样本的处理,同时考虑是否为配对、配伍设计或重复测量的情况,以及检验方法的前提条件是否满足。" 在进行统计分析时,首要步骤是明确研究中的反应变量,即我们关注的主要变量,是单变量、双变量还是多变量。这将决定我们将使用何种类型的统计方法。例如,单变量分析通常用于只有一个感兴趣的变量的情况,而双变量或多变量分析则涉及到两个或多个变量之间的关系。 资料类型也是一个关键因素,可以是计量资料(如连续数值)、计数资料(如频数)或分类资料(如类别)。例如,在描述中提到的案例1中,血红蛋白含量是计量资料,而比较两种方法对乳酸饮料中脂肪含量的测定则是另一种情况,可能涉及计数或计量资料的比较。 分析方法的选择需基于数据的性质和设计。比如,当反应变量是计量资料且满足正态分布假设时,可以使用单样本t检验来比较样本均数与已知总体均数的差异;如果不满足正态分布,非参数检验如 Wilcoxon signed-rank test 或 Wilcoxon one-sample test 可能更为适用。 在案例2中,比较两种方法的测定结果是否不同,属于两样本的比较。在这种情况下,如果数据符合正态分布且方差齐性,可以使用独立样本t检验;若不符合正态分布,可以采用Mann-Whitney U检验或Kruskal-Wallis H检验等非参数方法。 此外,对于配对或配伍设计的数据(如同一对象在不同时间点的测量值),应选择配对样本检验,如配对样本t检验或Wilcoxon配对样本符号秩检验。对于重复测量数据,可能需要用到混合效应模型或其他适合处理时间序列数据的方法。 统计分析思路需要综合考虑研究设计、数据类型、变量间的关系以及数据分析方法的适用性,确保选用的统计方法能够准确、有效地揭示数据中的信息,从而支持科学结论的得出。在实际操作中,还需要结合专业知识和统计软件来执行分析并解释结果。
2022-12-23 上传
数据分析思路 数据分析是在当今每个企业都所需要涉及的⼀门学科,数据分析的书随便⼀搜就会有太多教⼤家如何的去使⽤。⼤致能把搜到的书分为两 类:第⼀类讲数据理论统计学相关的,第⼆类就是数据分析⼯具应⽤类型的。⽽⼤部分我们所购买的书基本都是某⼀类⼯具如何使⽤去进⾏ 数据分析,但是看完过后还是不太懂什么是数据分析,应⽤到实际⼯作场景中照样很迷茫不知道该如何下⼿,这是什么原因呢?有的⼩伙伴 会说:我想分析的根本没有数!拿到的这个数也就只能做做折线图,同⽐环⽐两组数对⽐⼀下!业务当中发⽣了什么数据好像不能看出来! 不知道⼀个函数得出的结果代表什么!还有可能我根本不会⽤⼀些⼯作等等。。。 那为什么很多伙伴都想学数据分析呢?我想原因可能很简单:就是数据分析相关的岗位⼯资⾼啊!现在进⼊⼤数据时代不会点数据分析你具 备核⼼竞争⼒吗? 本⽂就以个⼈愚见来探讨⼀下如何去做数据分析。⽂章⼤致分四个层次分别为: 需求层 、 数据层 、 分析层 、 输出层 。也是数据分析按重要 顺序排的⼤体步骤。 需求层 需求层为什么是最重要的呢?因为需求是数据分析的开始,也是你要分析的⽬标⽅向。如果你都不知道你要分析什么,还怎么谈如何分析? 数据分析需求的来源往往有3种场景:1.监控到现有的指标出现了异常情况需要通过数据分析去找原因;2.公司要对现有的运营模式或者某 个产品进⾏评估确定是否需要进⾏调整或者优化;3.公司下达了战略⽬标或短期⽬标需要通过分析看如何达成。要确定需求就必须与需求⽅ 进⾏沟通,清楚的确认需求的内容或者⾃⼰要分析前必须要清楚你想要的结果是什么⽅向。举个简单的例⼦:年底将近,双⼗⼀⼤促销在 即,数据分析师们⼜到了⼀年最⾟苦,最悲催的时间段。然⽽,有多少⽆意义的加班,是因为业务部门不会提需求所导致的。需求提的不合 理,业务部门看了不解决问题,就会反反复复的再提需求。导致数据分析师们⾟苦加班还不落好,背上⼀个:"分析没深度啊!"的坏名 声。其实这不能怪需求⽅不会提需求,⽽是你作为数据分析⼈员要⽤你的经验,你的专业技能,你的沟通技巧去引导,去确定,去达成⼀ 致。 所有要做到清晰的确定需求,需要⾃⾝具备:1、对业务、产品、需求背景有⽐较深的了解。了解的⾜够对你才能去引导去判断这个需求; 2、光了解需求⽅是还不够的,你需要从获得的需求快速的去结合你所掌握的技能组⼯具有个初步的分析思路;3、综合判断后你再决定是 否需要分析,应该怎么分析,与需求⽅沟通确定清楚两⽅理解是否⼀致。如果⽆法做到就会出现很多⽆法避免的问题。 理论上数据分析师所从事的⼯作是给出业务⽅相应的数据结果,⽽不是解决⽅案。虽然也有分析两个字,但是如何设计解决⽅案是业务部门 的事。运营部门就该做活动⽅案,产品经理就该出产品⽅案,销售部门就该想东西怎么卖。这才是业务部门的本职⼯作。吵吵着:"你说我 不⾏,你⾏你上啊"是玩忽职守的扯⽪表现。如果连具体的业务⽅案都让分析师来想了,分析师也⼲脆把业务部门的⼯资领了算了。但是当 下专业的数据分析师是需要⽐业务⽅更了解业务,你不了解业务下的结论领导或者需求⽅感信任吗?所以,⼀个业务技术双精通的数据分析 师,是可以替业务⽅搞定上边所有问题的,不依赖业务⽅的判断,因为他⾃⼰就是个业务⾼⼿,有丰富的实战经验与业务能⼒。但这种⼈是 可遇不可求的。⼤部分数据分析师还是70%时间处理数据的技术男。 在需求层我总结⼀下我们所需要了具备的能⼒:1、对业务、产品、需求背景有⾜够的了解,如果不了解说明你在这块应该先去充充电; 2、然后当你⽆法想到分析⽅法的时候说明你对现有的数据不够了解。你同样该去了解了解数据的来源,数据的流转,数据的定义。 数据层 ⽬标需求确定过后,现在的你就需要开始准备相关的数据了。数据层⼤致分为: 数据获取 、 数据清洗 、 数据整理 。有的伙伴会问,数据应该 从哪来呢?数据来源取决于你分析需求,有直接从企业数据库通过SQL进⾏取数、有通过各统计⽹站进⾏数据下载,有通过爬⾍技术在互联 ⽹进⾏数据抓取,也有通过企业已经加⼯好的数据报表,这⾥主要去讲在⼤数据时代如何去准备数据。因为利⽤数据库才能实现⼤数据下的 真正核⼼分析,你才能配上数据分析师这次名称。 ⼤数据(Big Data)是指"⽆法⽤现有的软件⼯具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。⼤数据挖掘商业价值的 ⽅法主要分为四种1.客户群体细分,然后为每个群体量定制特别的服务;2.模拟现实环境,发掘新的需求同时提⾼投资的回报率;3.加强部 门联系,提⾼整条管理链条和产业链条的效率;4.降低服务成本,发现隐藏线索进⾏产品和服务的创新。 为什么⼤数据能实现这些场景?因为⼤数据的类型⼤致可分为三类:1.传统企业数据(Traditional enterprise data):包括 CRM syst
2022-12-23 上传
数据分析的思维方式 一:数据分析的五大思维方式。 首先,我们要知道,什么叫数据分析。其实从数据到信息的这个过程,就是数据分析。 数据本身并没有什么价值,有价值的是我们从数据中提取出来的信息。 然而,我们还要搞清楚数据分析的目的是什么? 目的是解决我们现实中的某个问题或者满足现实中的某个需求。 那么,在这个从数据到信息的过程中,肯定是有一些固定的思路,或者称之为思维方式 。下面给你一一介绍。(本文用到的指标和维度是同一个意思) 第一大思维【对照】 【对照】俗称对比,单独看一个数据是不会有感觉的,必需跟另一个数据做对比才会有 感觉。比如下面的图a和图b。 图a毫无感觉 图b经过跟昨天的成交量对比,就会发现,今天跟昨天实则差了一大截。 这是最基本的思路,也是最重要的思路。在现实中的应用非常广,比如选款测款丶监控 店铺数据等,这些过程就是在做【对照】,分析人员拿到数据后,如果数据是独立的, 无法进行对比的话,就无法判断,等于无法从数据中读取有用的信息。 第二大思维【拆分】 分析这个词从字面上来理解,就是拆分和解析。因此可见,拆分在数据分析中的重要性 。在派代上面也随处可见"拆分"一词,很多作者都会用这样的口吻:经过拆分后,我们 就清晰了……。不过,我相信有很多朋友并没有弄清楚,拆分是怎么用的。 我们回到第一个思维【对比】上面来,当某个维度可以对比的时候,我们选择对比。再 对比后发现问题需要找出原因的时候?或者根本就没有得对比。这个时候,【拆分】就 闪亮登场了。 大家看下面一个场景。 运营小美,经过对比店铺的数据,发现今天的销售额只有昨天的50%,这个时候,我们再 怎么对比销售额这个维度,已经没有意义了。这时需要对销售额这个维度做分解,拆分 指标。 销售额=成交用户数*客单价,成交用户数又等于访客数*转化率。 详见图c和图d 图c是一个指标公式的拆解 图b是对流量的组成成分做的简单分解(还可以分很细很全) 拆分后的结果,相对于拆分前会清晰许多,便于分析,找细节。可见,拆分是分析人员 必备的思维之一。 第三大思维【降维】 是否有面对一大堆维度的数据却促手无策的经历?当数据维度太多的时候,我们不可能 每个维度都拿来分析,有一些有关联的指标,是可以从中筛选出代表的维度即可。如下 表 这么多的维度,其实不必每个都分析。我们知道成交用户数/访客数=转化率,当存在这 种维度,是可以通过其他两个维度通过计算转化出来的时候,我们就可以 【降维】. 成交用户数丶访客数和转化率,只要三选二即可。另外,成交用户数*客单价=销售额, 这三个也可以三择二。 另外,我们一般只关心对我们有用的数据,当有某些维度的数据跟我们的分析无关时, 我们就可以筛选掉,达到【降维】的目的。 第四大思维【增维】 增维和降维是对应的,有降必有增。当我们当前的维度不能很好地解释我们的问题时, 我们就需要对数据做一个运算,增加多一个指标。请看下图。 我们发现一个搜索指数和一个宝贝数,这两个指标一个代表需求,一个代表竞争,有很 多人把搜索指数/宝贝数=倍数,用倍数来代表一个词的竞争度(仅供参考)。这种做法 ,就是在增维。增加的维度有一种叫法称之为【辅助列】。 【增维】和【降维】是必需对数据的意义有充分的了解后,为了方便我们进行分析,有 目的的对数据进行转换运算。 第五大思维【假说】 当我们拿不准未来的时候,或者说是迷茫的时候。我们可以应用【假说】,假说是统计 学的专业名词吧,俗称假设。当我们不知道结果,或者有几种选择的时候,那么我们就 召唤【假说】,我们先假设有了结果,然后运用逆向思维。 从结果到原因,要有怎么样的因,才能产生这种结果。这有点寻根的味道。那么,我们 可以知道,现在满足了多少因,还需要多少因。如果是多选的情况下,我们就可以通过 这种方法来找到最佳路径(决策) 当然,【假说】的威力不仅仅如此。【假说】可是一匹天马(行空),除了结果可以假 设,过程也是可以被假设的。 我们回到数据分析的目的,我们就会知道只有明确了问题和需求,我们才能选择分析的 方法。 顺带给大家讲讲三大数据类型。 这个属于偷换概念,其实就是时间序列的细分,不是真正意义上的数据类型,但这个却 是在处理店铺数据时经常会碰到的事情。数据放在坐标轴上面分【过去】丶【现在】和 【未来】 第一大数据类型【过去】 【过去】的数据指历史数据,已经发生过的数据。 作用:用于总结丶对照和提炼知识 如:历史店铺运营数据,退款数据,订单数据 第二大数据类型【现在】 【现在】的概念比较模糊,当天,当月,今年这些都可以是现在的数据,看我们的时间 单位而定。如果我们是以天作为单位,那么,今天的数据,就是现在的数据。现在的数 据和过去的数据做比较,才可以知道现在自己是在哪个位置,单有现在的数据,是没什 么用处的。 作用:用于了解现况,发现问题