理解大数据统计学:概率、描述统计与推断

需积分: 19 3 下载量 108 浏览量 更新于2024-06-27 收藏 1.12MB PDF 举报
"大数据的统计学基础.pdf" 这篇资料主要探讨了大数据背景下统计学的基础知识,由讲师黄志洪和何翠仪在DATAGURU专业数据分析社区讲解。课程强调了概率论作为统计学基础的重要性,指出概率论为统计学提供了理论武器。古典概率论和现代概率论(由柯尔莫戈洛夫建立)是概率论的两个关键阶段,学习和应用概率论能够提升决策的智慧和准确性。 统计学被分为描述统计学和推断统计学两部分。描述统计学通过数字和图表展示数据的集中和分散情况,如平均分、最高分、频数分布等。而推断统计学则根据样本数据推断总体特性,例如通过抽样检查估计整体质量合格率。统计学在经济学、医学、心理学等领域有着广泛应用。 在统计学中,集中趋势是衡量数据中心位置的重要概念。常用的集中趋势度量包括均值、中位数和众数。均值,即算术平均数,能够反映出数据的平均水平,但易受极端值影响。中位数不受极端值影响,但对数据变化的敏感度较低。众数是数据中出现最频繁的数值,可能有一个、两个或不存在。每个度量都有其优势和局限性,适用于不同的数据集和分析目的。 课程还给出了计算均值的例子,展示了如何比较不同组别的成绩。比如,小组A和小组B的数学考试成绩,通过计算平均分(均值)来判断哪一组的整体表现更好。此外,资料中还讨论了中位数的定义,指出当数据量为偶数时,中位数是中间两个数的平均值。众数的概念也被解释,它反映了数据的一般水平,适用于数值和非数值数据。 通过这些基础知识的学习,读者能够更好地理解和应用统计学方法,特别是面对大数据时,这些工具和概念显得尤为重要。在实际问题解决和决策制定中,统计学方法提供了科学的依据和有效的分析手段。
2022-12-24 上传
⼤数据的基础知识 1、⼤数据的基础知识 ⼤数据的概念 ⼤数据(big data),IT⾏业术语,是指⽆法在⼀定时间范围内⽤常规软件⼯具进⾏捕捉、管理和处理的数据集合,是需要新处理模式才能 具有更强的决策⼒、洞察发现⼒和流程优化能⼒的海量、⾼增长率和多样化的信息资产。 在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《⼤数据时代》中⼤数据指不⽤随机分析法(抽样调查)这样捷径,⽽采⽤所有数据进 ⾏分析处理。⼤数据的5V特点(IBM提出):Volume(⼤量)、Velocity(⾼速)、Variety(多样)、Value(低价值密度)、 Veracity(真实性)。 ⼤数据主要解决了什么问题? 序号 序号 解决的问题 解决的问题 产⽣的产品 产⽣的产品 1 海量数据的存储 HDFS (Hadoop Distributed System hadoop分布式⽂件系统) 2 海量数据的分析计算 MapReduce 3 统⼀资源管理调度 YARN ⼤数据的特点 序号 序号 特点 特点 描述 描述 1 Volume(⼤量) 数据量越来越⼤ 2 Velocity(⾼速) 数据量增长越来越快 3 Variety(多样) 数据的结构多种多样 4 Value(多样) 价值密度的⾼低与数据总量⼤⼩成反⽐ ⼤数据应⽤场景 1、物流仓储 2、零售 3、旅游 4、推荐 5、保险 6、⾦融 7、房地产 8、⼈⼯智能 ⼤数据部门组织结构 2、hadoop hadoop是什么? Hadoop是⼀个由Apache基⾦会所开发的分布式系统基础架构。⽤户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利⽤ 集群的威⼒进⾏⾼速运算和存储。Hadoop实现了⼀个分布式⽂件系统(Hadoop Distributed File System),简称HDFS。HDFS有⾼容 错性的特点,并且设计⽤来部署在低廉的(low-cost)硬件上;⽽且它提供⾼吞吐量(high throughput)来访问应⽤程序的数据,适合那 些有着超⼤数据集(large data set)的应⽤程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)⽂ 件系统中的数据。Hadoop的框架最核⼼的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,⽽MapReduce则为海量的 数据提供了计算。 hadoop组成 hadoop1.x和2.x的区别 HDFS YARN MapReduce Map阶段并⾏处理数据 Reduce阶段对Map处理数据的结构进⾏汇总 ⼤数据体系 名词解释 序 序 号 号 名称 名称 描述 描述 1 Sqoop Sqoop是⼀款开源的⼯具,主要⽤于在Hadoop、Hive与传统的数据库(MySql)间进⾏数据的传递,可以将⼀个关系型数据库(例如 : MySQL,Oracle 等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 2 Flume Flume是Cloudera提供的⼀个⾼可⽤的,⾼可靠的,分布式的海量⽇志采集、聚合和传输的系统,Flume⽀持在⽇志系统中定制各类数 据发送⽅,⽤于收集数据;同时,Flume提供对数据进⾏简单处理,并写到各种数据接受⽅(可定制)的能⼒。 3 Kafka Kafka是⼀种⾼吞吐量的分布式发布订阅消息系统,有如下特性:1.通过磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的 消息存储也能够保持长时间的稳定性能。2.⾼吞吐量:即使是⾮常普通的硬件Kafka也可以⽀持每秒数百万的消息。3.⽀持通过Kafka服 务器和消费机集群来分区消息。4.⽀持Hadoop并⾏数据加载。 4 Storm Storm⽤于"连续计算",对数据流做连续查询,在计算时就将结果以流的形式输出给⽤户。 5 Spark Spark是当前最流⾏的开源⼤数据内存计算框架。可以基于Hadoop上存储的⼤数据进⾏计算。 6 Oozie Oozie是⼀个管理Hadoop作业(job)的⼯作流程调度管理系统。 7 Hbase HBase是⼀个分布式的、⾯向列的开源数据库。HBase不同于⼀般的关系数据库,它是⼀个适合于⾮结构化数据存储的数据库。 8 Hive Hive是基于Hadoop的⼀个数据仓库⼯具,可以将结构化的数据⽂件映射为⼀张数据库表,并提供简单的SQL查询功能,可以将SQL语 句转换为MapReduce任务进⾏运⾏。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的 MapReduce应⽤,⼗分适合数据仓库的统计分析。 9 R语⾔ R是⽤于统计分析、绘图的语⾔和操作环境。R是属于GNU系统的⼀个⾃由、免费、源代码开放的