Bootstrap逼近在多维密度核估计中的应用分析

需积分: 15 4 浏览量更新于2024-08-11 收藏 120KB PDF 举报

"这篇论文探讨了多维密度核估计在Bootstrap方法下的逼近性质。作者证明了在特定条件下，Bootstrap技术可以有效地逼近多维密度核估计的分布。文章着重研究了Bootstrap方法如何应用于估计概率密度函数的误差，并给出了相关定理以确保逼近的准确性。" 在多维数据分析中，估计高维空间中的概率密度函数是一项关键任务。核密度估计（Kernel Density Estimation, KDE）是一种非参数方法，用于估计未知概率密度函数。在给定的样本集X₁, ..., Xn中，核密度估计通过加权平均每个样本点周围的邻域来构建密度函数的估计。公式如下： fn(X) = (1/nh) * d/det(S)^{1/2} * Σ_{i=1}^{n} K((X - Xi)/h) * TS^(-1)(X - Xi) 这里的K(·)是核函数，通常选择为高斯核或其他平滑函数；h是带宽参数，控制估计的局部化程度；S是样本协方差矩阵；det(S)是其行列式的平方根。 Bootstrap方法是由Efron提出的统计抽样技术，用于模拟统计量的分布。在核密度估计的背景下，Bootstrap方法可以用来估计fn(X) - f(X)的分布，其中f(X)是真实的密度函数。Bootstrap样本是从经验分布Fn(X)中抽取的，记为X_倡₁, ..., X_倡_n，对应的核密度估计为f_倡_n(X)。 Bootstrap方法的核心思想是利用条件分布nh/det(S) * (f_倡_n(X) - fn(X))来近似nh/det(S) * (fn(X) - f(X))的分布。论文中的定理1给出了Bootstrap逼近成立的条件，包括对核函数K(u)和目标密度函数f(X)的限制，如f(X)的二阶导数连续且有界，K(u)的边界性质，以及带宽h的选择（随着样本大小n增长，h应按n^{-1/(5d)}的速度减小，同时保证nh^d趋向于无穷大）。这些条件保证了当样本数量n增加时，Bootstrap逼近的误差界限能够收敛到一个确定的分布。这个结果对于实际应用具有重要意义，因为它提供了一种在不确定的多维数据环境中稳健地评估密度估计误差的方法。Bootstrap技术的使用增强了我们理解和验证多维密度估计能力的信心，对于数据分析和统计推断具有深远的影响。

第２９卷第１１期　　　　　　　　　西南大学学报（自然科学版）　　　　　　　　　　　２００７年１１月

Ｖｏｌ畅２９　Ｎｏ畅１１ＪｏｕｒｎａｌｏｆＳｏｕｔｈｗｅｓｔＵｎｉｖｅｒｓｉｔｙ（ＮａｔｕｒａｌＳｃｉｅｎｃｅＥｄｉｔｉｏｎ）Ｎｏｖ畅　２００７

文章编号：１６７３９８６８（２００７）１１００３４０４

多维密度核估计的Ｂｏｏｔｓｔｒａｐ逼近

①

李德旺，　陈　兴，　喻达磊，　徐达明

云南大学数学与统计学院，昆明６５００９１

摘要：在一定条件下证得多维密度核估计的Ｂｏｏｔｓｔｒａｐ逼近成立．

关　键　词：多维密度；核估计；Ｂｏｏｔｓｔｒａｐ逼近

中图分类号：Ｏ２１２畅７文献标识码：Ａ

设Ｘ为ｄ维随机变量，Ｘ

１

， … ，Ｘ

ｎ

为Ｘ的样本，Ｘ的概率密度函数

ｆ

（Ｘ）的核估计定义式

［１］

为

ｆ

ｎ

（Ｘ）＝

１

ｎｈ

ｄ

ｄｅｔ（Ｓ）

１／２

∑

ｎ

ｉ

＝

１

Ｋ

（Ｘ

－

Ｘ

ｉ

）

Ｔ

Ｓ

－

１

（Ｘ

－

Ｘ

ｉ

）

ｈ

２

其中：Ｘ

＝

（ｘ

１

， … ，ｘ

ｄ

）

Ｔ

，Ｘ

ｉ

＝

（ｘ

ｉ１

， … ，ｘ

ｉｄ

）

Ｔ

（ｉ

＝

１， … ，ｎ）；Ｋ（·）为核函数，是给定概率密度函数；ｈ

为宽带系数；ｎ为样本容量；Ｓ是ｄ

ｄ维对称样本协方差矩阵．用Ｅｆｒｏｎ

［２］

提出的Ｂｏｏｔｓｔｒａｐ方法，可得

ｎｈ

ｄ

ｄｅｔ（Ｓ）

１／２

（

ｆ

ｎ

（Ｘ）－

ｆ

（Ｘ））分布的Ｂｏｏｔｓｔｒａｐ估计．

设Ｆ

ｎ

（Ｘ）为基于Ｘ

１

， … ，Ｘ

ｎ

的观察值ｘ

１

， … ，ｘ

ｎ

的经验分布函数，Ｘ

倡

１

， … ，Ｘ

倡

ｎ

为取自Ｆ

ｎ

的ｉｉｄ样

本，记

ｆ

倡

ｎ

（Ｘ）＝

１

ｎｈ

ｄ

ｄｅｔ（Ｓ）

１／２

∑

ｎ

ｉ

＝

１

Ｋ

（Ｘ

－

Ｘ

ｉ

倡

）

Ｔ

Ｓ

－

１

（Ｘ

－

Ｘ

ｉ

倡

）

ｈ

２

．Ｂｏｏｔｓｔｒａｐ方法即是用

ｎｈ

ｄ

ｄｅｔ（Ｓ）

１／２

（

ｆ

倡

ｎ

（Ｘ）－

ｆ

ｎ

（Ｘ））的条件分布去模拟ｎｈ

ｄ

ｄｅｔ（Ｓ）

１／２

（

ｆ

ｎ

（Ｘ）－

ｆ

（Ｘ））的分布．

本文提出的主要结论如下：

定理１　若Ｋ（ｕ）和

ｆ

（Ｘ）满足条件：

栴

ｆ

（Ｘ） ≠ ０，

ｆ

″

（Ｘ）在Ｒ

ｄ

处处连续且有界；

栵Ｋ（ｕ）在Ｒ

ｄ

有界，Ｋ（ｕ）为概率密度，

∫

Ｒ

ｄ

ｕＫ（ｕ）ｄｕ

＝

０，

∫

Ｒ

ｄ

ｕ

２

Ｋ（ｕ）ｄｕ

＜＋

∞ ；

栶ｌｉｍ

｜

ｕ

｜ →

∞

｜

ｕＫ（ｕ）

｜＝

０或者

ｆ

（Ｘ）在Ｒ

ｄ

上有界；

栺ｈ

＝

０（ｎ

－

１／５ｄ

），ｌｉｍ

ｎ

→

∞

ｎｈ

ｄ

＝＋

∞ ．

则当ｎ

→ ＋

∞ 时，有

ｓｕｐ

Ｚ

Ｐ

ｎｈ

ｄ

ｄｅｔ（Ｓ）

１／２

（

ｆ

ｎ

（Ｘ）－

ｆ

（Ｘ））

（

ｆ

（Ｘ）

∫

Ｒ

ｄ

Ｋ

２

（ｕ）ｄｕ）

１／２

≤

Ｚ

－

（Ｚ）

→

０

这里

（Ｚ）为标准正态分布函数．

定理２　若定理１的条件均满足，且ｌｉｍ

ｎ

→

∞

ｌｏｇｎ

ｎｈ

ｄ

＝

０，则对几乎所有的样本序列Ｘ

１

， … ，Ｘ

ｎ

，当ｎ

→ ＋

∞

时，有

①

收稿日期：２００７０７０４

基金项目：云南省自然科学基金资助项目（２００５Ａ０００１Ｍ）．

作者简介：李德旺（１９７６），男，江西人，硕士研究生，主要从事空间数据方面的研究．

通讯作者：陈　兴，副教授，硕士研究生导师．

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38680492

粉丝: 5

Bootstrap逼近在多维密度核估计中的应用分析

概率密度核估计的Bootstrap逼近 (2007年)

bootstrap bootstrap-3.3.7

删失回归模型的加权Bootstrap逼近 (2008年)

Kolmogorov统计量的精确分布及其在Bootstrap逼近中的应用 (1991年)

比例Bootstrap及其方差估计的相合性 (2007年)

bgkreg:Bootstrap 高斯核回归

R语言bootstrap置信区间估计函数

bootstrap-switch bootstrap 开关

Bootstrap的bootstrap.js

bootstrap案例

最新资源