大数据算法概览：概率基础与随机变量

需积分: 0 158 浏览量更新于2024-07-01 收藏 411KB PDF 举报

"大数据算法课件1" 大数据算法是信息技术领域中的一个重要组成部分，它涉及到处理海量数据的复杂计算问题。在本课件中，主要探讨了概率基础、亚线性空间和时间算法、并行模型算法等多个关键概念。首先，概率基础是理解大数据算法中的随机性和不确定性的重要工具。概率空间由样本空间Ω、事件集合F和概率函数Pr构成，其中Ω包含了所有可能的结果，F是Ω的子集，而Pr则是满足非负性、规范性和完全可加性的概率分配。条件概率是当已知某个事件发生时，另一个事件发生的概率，它在处理大数据时用于计算给定条件下事件的概率。全概率公式则提供了一种通过已知事件的概率来计算未知事件概率的方法，这对于处理大数据中复杂的关联分析至关重要。随机变量是概率论的核心概念，它是从样本空间到实数集合的映射。离散随机变量有有限或可数无限多个可能的值，其概率分布可以通过概率质量函数表示，期望值是衡量离散随机变量平均值的重要统计量。对于非负整数取值的离散随机变量，期望还可以通过求和所有大于等于i的事件概率来计算。连续随机变量则有不同的处理方式，其概率分布由分布函数F(x)定义，该函数给出了变量小于或等于x的概率。连续随机变量的期望值是通过对整个实数轴进行积分得到的，这在处理大数据中的连续性特征时非常有用。亚线性空间和时间算法是大数据处理中效率优化的关键，它们能够在处理大规模数据时减少所需的存储空间和计算时间。这些算法通常利用概率方法和近似技术来达到高效计算的目的，例如在流式数据分析中，亚线性算法能够实时地处理大量数据流，而不需要将所有数据存储下来。并行模型算法则利用多处理器或多核心的硬件架构，通过任务分解和数据并行化来加速计算。在大数据场景下，这种并行处理能力是不可或缺的，因为单个机器往往无法在合理时间内完成对海量数据的处理。并行算法设计需要考虑通信开销、负载均衡和错误恢复等问题，以确保整体性能和系统的可靠性。大数据算法课程涵盖了概率论基础知识、高效算法设计以及并行计算模型，这些都是理解和应用大数据技术的基础。通过深入学习这些内容，可以提升在大数据环境下的分析和决策能力，有效地处理和挖掘隐藏在海量数据中的价值。

问题2：不重复元素数

流模型（Streaming Model）

A stream:

σ = ha

, a

, . . . , a

i, a

∈ [m],

then we can dene a frequency vector

f = (f

, . . . , f

), s.t.



1≤i≤n

= n.

定义1.15[The Distinct Elements Problem]

给定数据流 σ，计算



1≤i≤m

I[f

> 0]，I[f

> 0] = 1当且仅当f

> 0。

42 / 250

问题2：不重复元素数

精确计算需要多少空间代价？

▷ 方法1：O(m) 位.

为每一个[m]中的元素维护一个位，长度为m的向量.

▷ 方法2：O(n log(m)) 位.

维护n个数，每一个使用log(m)位.

43 / 250

问题2：不重复元素数

▷ 一个理想化的解决方案：假设可以存储实数

▷ 利用哈希函数（hash function）

◦ h : [m] 7→ [0, 1]

◦ h(i)的函数值是[0, 1]实数，均匀分布

FM Algorithm [Flajolet‑Martin 1985]

/** Maintain a variable z **/

1. 随机选取一个哈希函数h : [m] 7→ [0, 1]

2. z = 1.

3. 每遇到一个元素i，更新: z = min (z, h(i))

4. return 1/z − 1.

53 / 250

问题2：不重复元素数

FM算法的分析：令X =

− 1，E[z] =

D+1

，var[z] ≤

(D+1)(D+2)

Pr[|z −

D + 1

| > c

D + 1

] <

2(D + 1)

· (D + 1)(D + 2)

Pr[|X − D| > ϵD]

≤Pr[|z −

D + 1

| >

ϵD

(D + 1 + ϵD)

(D + 1)

]

c =

ϵD

D + 1 + ϵD

2(D + 1 + ϵD)

=2(

D + 1

ϵD

+ 1)

<2(

+ 1)

58 / 250

问题2：不重复元素数

Pr[|X − D| > ϵD]

⇔Pr[|1/z − 1 − D| > ϵD]

⇔Pr[

< 1 + (1 − ϵ)D或

> 1 + (1 + ϵ)D]

⇔Pr[z >

1 + (1 − ϵ)D

或z <

1 + (1 + ϵ)D

]

⇔Pr[z −

1 + D

ϵD

(D + 1)(1 + D − ϵD)

或z −

1 + D

−ϵD

(D + 1)(1 + D + ϵD)

]

≤Pr[|z −

D + 1

| >

ϵD

1 + D + ϵD

D + 1

]

59 / 250

问题2：不重复元素数

利用多次运行

FM+ Algorithm

/** Maintain a variable z **/

1. for j from 1 to k

2. 随机选取一个哈希函数h

: [m] 7→ [0, 1]

3. z

= 1.

4. 每次遇到 i，更新: z

= min (z

, h

(i))

5. Z =



j=1

;

6. return 1/Z − 1.

60 / 250

问题2：不重复元素数

FM+算法分析：X =

− 1，Z =



j=1

，E[Z] = E[z]，var[Z] =

var[z]

Pr[|Z −

D + 1

| > c

D + 1

] <

(D + 1)

var[Z]

c =

ϵD

D + 1 + ϵD

⇒ Pr[|X − D| > ϵD] <

2(D + 1 + ϵD)

kϵ

(

+ 1)

这里，ϵ为精度要求，假设概率要求为1 − δ，只需

(

+ 1)

< δ

⇒k >

(

+ 1)

= O(

)

61 / 250

问题2：不重复元素数

利用Median技术

FM++ Algorithm

1. 运行具有常数概率的FM+算法m = Θ(log

)次；

D为所有 m 个结果的中间值；

3. return

FM++是一个以1 −δ概率保证(1 ±ϵ)近似的算法

整体代价为O(

log

)

63 / 250

剩余14页未读，继续阅读

CyberNinja

粉丝: 29
资源: 297

大数据算法概览：概率基础与随机变量

大数据十大经典算法kNN讲解课件.ppt

大数据十大经典算法SVM-讲解课件.ppt

大数据十大经典算法Navie-Bayes讲解课件.ppt

gpt4大数据算法课件

大数据算法视频课程+课件

大数据算法 王宏志

大数据概论课件

大数据算法导论第六周

大数据PPT课件.pptx

Python大数据基础课件.zip

最新资源

大数据算法王宏志