Bootstrap方法与GEV分布拟合：理解与应用

36 浏览量更新于2024-08-30 1 收藏 73KB PDF 举报

"Bootstrap置信区间和GEV拟合pdf" Bootstrap置信区间是统计学中用来确定总体参数估计不确定性的方法。它通过大量的重采样（resampling）从原始数据集中构建新的样本集，然后基于这些新样本集计算统计量，从而得到参数估计的分布。这种方法适用于未知分布或小样本数据的情况，因为它不需要对数据分布做出特定假设。在分类问题中，如描述中提到的，分类准确率或错误率的置信区间可以帮助我们理解模型的性能波动范围。对于分类精度的置信区间，我们可以使用标准误差公式来计算。例如，如果模型的分类准确率为70%，样本大小为10次试验，我们可以计算分类误差的置信区间半径。这个半径由Z值（标准正态分布的临界值）乘以标准误差得到，标准误差自身是分类误差（或准确率）乘以（1 - 错误率）或（1 - 准确率）除以样本大小的平方根。这样，我们可以得到一个置信区间，表示模型在多次实验中的表现可能落在这个范围内。在非参数统计中，Bootstrap方法尤其有用。Python代码示例展示了如何使用Bootstrap方法计算置信区间。`bootstrap`函数接收数据、抽样次数（B）、置信水平（c）和样本估计函数（func）。数据集被随机有放回地抽取B次，每次抽取后都会调用`func`函数来估计参数，最后通过百分位数法或bias-corrected and accelerated (BCa) interval等方法确定置信区间。 GEV拟合pdf，全称为Generalized Extreme Value Distribution（广义极值分布）拟合概率密度函数（Probability Density Function, PDF），通常用于极端值分析。这种分布可以描述在一系列独立同分布的随机变量中，观察到的最大值或最小值的分布。在环境科学、金融学、工程学等领域，当需要研究极端事件的概率时，GEV分布是一个常用工具。拟合过程包括选择合适的GEV类型（类型I, II, III），然后使用最大似然估计或最小二乘法等方法估计分布的参数，如位置参数、尺度参数和形状参数。通过Bootstrap方法，我们可以不仅估计GEV分布的参数，还可以计算其参数估计的置信区间，进一步了解参数不确定性。在Python中，可以使用像`scipy.stats`库的`fit`和`interval`函数来实现这一过程。 Bootstrap置信区间提供了估计模型性能和参数不确定性的一种强大工具，而GEV拟合PDF则用于理解数据中的极端行为。两者结合使用，可以帮助我们在不确定性和复杂性较高的数据分析场景中作出更稳健的决策。

Bootstrap置信区间和置信区间和GEV拟合拟合pdf

** Bootstrap置信区间和置信区间和GEV拟合拟合pdf **

1. 置信区间置信区间

置信区间是总体参数估计的一个界限界限，用于量化估计的不确定性量化估计的不确定性。另外，置信区间是一个范围的可能性。真正的模型性能可

能在这个范围之外。

1.1 分类精度的置信区间分类精度的置信区间

如果给定输入数据给定输入数据，预测它们的标签，通常用分类准确率分类准确率（accuracy）或分类误差分类误差（Error，与准确率相反）来描述分类预测

模型的性能性能，分类准确率或分类误差是一个比例比例，别名：伯努利审判(Bernoulli trial)。eg: 董某人用Wrf模式模拟了10次兰州沙

尘过程，但是只有7次模拟成功，那么模型的分类准确率为70%。分类误差区间半径计算公式：interval = z * sqrt( (error * (1 - error))

/ n)分类准确率区间半径计算公式：interval = z * sqrt( (accuracy * (1 - accuracy)) / n) 公式中的interval是置信区间的半径，error和

accuracy是分类误差和分类准确率，n是样本大小，sqrt是平方根函数，z是高斯分布的临界值。用术语表述，这就是二项式比

例置信区间。

1.2 非参数置信区间非参数置信区间

如果我们不知道性能指标的分布情况不知道性能指标的分布情况或者不知道计算置信区间的具体方法不知道计算置信区间的具体方法或者所拥有数据量太少数据量太少，在这些情况下我们可以采用

bootstrap重采样方法计算置信区间。任意总体统计的置信区间都可以用***bootstrap***以一种分布无关法（distribution-

free）进行估计。 bootstrap

是一种模拟蒙特卡罗方法，其中样本是从固定的有限数据集中

有放回的抽取有放回的抽取出来的，并且在每个

样本上估计一个参数。

Python

代码实现：代码实现：

```python

import numpy as np

def average(data):

return sum(data) / len(data)

def bootstrap(data, B, c, func):

**#计算bootstrap置信区间

#:param data: array 保存样本数据

# :param B: 抽样次数通常B>=1000

#:param c: 置信水平

#:param func: 样本估计量

# :retrn: bootstrap置信区间上下限

array = np.array(data)

#将数据赋值到np的array数组里

n = len(array)

#数据长度

sample_result_arr = [] #建立空数组，动态数组

for i in range(B):

index_arr = np.random.randint(0, n, size=n)

#生成0-1000的随机整数，作为数据序列位置号。

#此函数精髓就是利用数组位置号来再抽样

data_sample = array[index_arr] #根据生成的随机数据序列号，来再次抽样赋值新数组。

sample_result = func(data_sample)

sample_result_arr.append(sample_result)

#append函数是将重采样的sample_result数据添加到sample_result_arr数组后面

a = 1 - c

#如果是95%置信度，那就是 c = 0.95 ,a = 1- c= 0.05

k1 = int(B * a / 2)

#如果B是1000，则k1代表从小到大排列，第2.5%个分位处的序列位置号。

k2 = int(B * (1 - a / 2))

#如果B是1000，则k1代表从小到大排列，第97.5%个分位处的序列位置号。

auc_sample_arr_sorted = sorted(sample_result_arr)

#将1000次重新抽样的数据从大到小排列。

lower = auc_sample_arr_sorted[k1] #取2.5%分位处的值

higher = auc_sample_arr_sorted[k2] #取2.5%分位处的值

return lower, higher

#返回上下置信度。

#-----------自定义函数结束

if __name__ == '__main__':

result = bootstrap(np.random.randint(0, 50, 50), 1000, 0.95, average)

#构建0-50之间的50个随机数，1000次重采样，95%置信度，平均值输出

print(result)

#输出结果；平均值信度区间为(CI:20.48, 28.32)

```**

NCL

代码实现：代码实现：

begin

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38590989

粉丝: 8
资源: 940

Bootstrap方法与GEV分布拟合：理解与应用

Bootstrap 步态曲线：实施 Bootstrap-t 程序以获得时间序列数据的置信区间-matlab开发

MATLAB用拟合出的代码绘图-bootstrap-demo-matlab:从非线性回归生成参数的自举置信区间

montecarlino:bootstrap 置信区间和置换检验的并行实现

R语言bootstrap置信区间估计函数

bbcorrdiff：相关系数差值的Bootstrap统计：两个相关系数差值的双块bootstrap置信区间。-matlab开发

比估计的Bootstrap置信区间研究：函数无偏方法的适用性分析

bootstrap置信区间

python得到bootstrap置信区间

比较bootstrap置信区间r语言

MATLAB实现基于Bootstrap区间预测（完整源码和数据） Bootstrap区间预测为您的点预测提供置信区间描述不确定性

最新资源