MATLAB概率密度估计：稳健自适应设计和可扩展集成

50 浏览量更新于2024-01-27 收藏 1.1MB PDF 举报

MATLAB工具

论文信息

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

∑软件X 18（2022）101017原始软件出版物概率密度估计和非参数估计的MATLAB工具Jenny Farmera，Donald J. Jacobsa，b，a物理和光学科学系，北卡罗来纳大学夏洛特分校，夏洛特，NC 28223，美国b美国北卡罗来纳大学夏洛特分校生物医学工程与科学中心，邮编：28223ar t i cl e i nf o文章历史记录：接收7四月2020收到修订版2021年9月18日接受2022年保留字：非参数密度估计单阶统计量MATLABRa b st ra ct基于最大熵原理和单阶统计量的特性，提出了一种非参数概率密度估计的迭代方法。该方法具有稳健和自适应的设计，非常适合高通量应用。该实现包括MATLAB接口和底层C++代码，可扩展组件可以轻松集成到第三方软件中。该功能包括绘图功能和独立于模型的诊断功能，其特征在于对样本大小、分布和估计方法不变的缩放分位数残差版权所有©2022作者。由爱思唯尔公司出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）中找到。代码元数据当前代码版本v2.1此代码版本使用的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX_2020_166GPL许可证使用git的代码版本控制系统软件代码使用的语言、工具和服务C++、MATLAB编译要求、操作环境依赖性MATLAB安装MingGW C/C++编译器Windows作为MATLAB附加组件来编译MEX问题支持电子邮件jfarmer@carolina.rr.com1. 动机和意义1.1. 背景从给定的随机变量样本中估计概率密度函数（PDF）是跨学科的各种应用中普遍存在的任务，例如经济学[1，2]，工程学[3]，物理学[4，5]，生物学[6随着机器学习和大数据分析在许多科学领域变得越来越重要[10-*通讯作者：物理和光学科学系，北卡罗来纳大学夏洛特分校，夏洛特，NC28223，美国。电子邮件地址：jfarmer6@uncc.edu（Jenny Farmer），djacobs1@uncc.edu（Donald J.Jacobs）。https://doi.org/10.1016/j.softx.2022.101017需要检查本文是基于C++实现的非参数PDF估计，称为PDFE，它有几个区别于核密度方法的特点。PDFE的详细信息之前已经发布[14] ，该软件也可以在 Comprehensive R Archive Network（CRAN）上获得[15]。本文的重点是MATLAB与PDFE的接口，但在这里简要总结了该方法。PDFE 基于最大熵原理构造 PDF 。在传统的最大熵方法（MEM）中，引入一组与各种矩相关的特征函数，并对这些函数的系数进行优化，以使预测矩与经验矩相匹配密度函数的形式是Dp（v）=exp（λjgj（v））（1）j=12352-7110/©2022作者。由Elsevier B.V.出版。这是一篇开放获取的文章，使用CC BY许可证（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表SoftwareX期刊主页：www.elsevier.com/locate/softx珍妮·法默和唐纳德·J。雅各布斯软件X 18（2022）1010172==+−Nk=1和σ是指样本量N中的位置，以及∑√√√+=+−=+= −+其中gj（ν）是有界水平函数，λj是控制密度函数形状的拉格朗日系数[16]。对于固定数量的系数D，该形式是参数的。PDFE采用正交函数的展开式，其形式为方程：（1）在根据需要连续添加更高模式的情况下，根据评分函数测试每个试验PDF。该算法采用随机搜索方法，通过扰动拉格朗日乘子的当前值来迭代地探索可能的密度函数。扰动是高斯分布的，其中标准偏差随着最终解的接近而减小。当计算密度的分数提高时，更新拉格朗日乘数。随着进展的减缓，更多的拉格朗日乘数更高的模式被认为是。1.2. 评分和缩放分位数残差采用评分函数对试验PDF的质量进行评级，其中先前已经实施并基准化了多个评分函数[17]。从试验的PDF，累积密度函数（CDF）的范围内计算（0 - 1）。当CDF（x）对采样均匀随机数据（SURD）建模时，该试验CDF是数据的准确表示。逆问题变成评估rk CDF（xk）是否表示SURD。由于其简单性，并且是整体性能最好的评分函数之一，PDFE采用平均二次z分数，定义为z2=1N（rk−µk）2/σ2，其中k是排序顺序µKKFig. 1. 100个样本的10，000次试验的SQR散点图显示偏度边界附近的范围。所示的选定位置的β分布量化了这种不对称性。使用需要一个带有数据样本输入的MATLAB函数调用，类似于原生MATLAB内核密度估计(KDE)功能与标准KDE不同，默认设置是数据-单阶统计量的标准差[18]已知为µkk/（N1）和σkuk（µk1）/N 2.最小化该函数对应于最小化单阶统计量中的方差。为了直观地评估每个位置的估计质量并确定潜在误差s的位置，将缩放分位数残差（SQR）定义为SQRk N 2（rkµk）。缩放因子N 2为每个位置k创建了一个样本大小不变的矩阵。已经表明，当相对于位置绘制时，SURD的SQRk近似落在椭圆形区域内[14，17]。仔细检查SURD后，在椭圆形的预期值范围内有轻微的不对称性，如图2中的散点图所示。1.一、该图是通过计算10，000项SURD试验的SQR创建的，样本量为N100。零处的水平虚线表示完全均匀数据的SQR，其突出显示端点附近的偏斜SQR范围这种不对称性源于排序顺序统计[18]，其中来自均匀分布的n个随机变量的样本量中位置k的概率遵循β分布，参数α和β分别等于k和N1 k一图11显示了样本量为100的这些分布的几个例子。 1，根据其在SQR上的位置着色。分布在边界附近高度偏斜，而中点遵循具有更大方差的高斯分布。SQR中的这种不对称性仅影响小样本量的概率密度尾部内的估计，当N>> 100时几乎没有影响。SQR图作为基准测试的评估工具非常有用密度估计质量，因为它独立于样本大小和底层分布。流行的措施，如此外，SQR图突出显示了估计PDF内的低置信度或过度拟合区域1.3. PDFE的MATLAB工具PDFanalyze MATLAB函数为MATLAB用户提供了一个灵活的PDFE接口，其中包括一个方便的绘图工具，可以用出版质量的数字可视化估计。最小驱动，其中分辨率和边界设置是自动的无需用户干预。对于高吞吐量应用程序，可以返回密度估计值，并抑制绘图SQR图有多种格式，可用于对建议估计值的质量进行直观评估额外的参数是可用的-能够适应更大的控制困难的分布与特定的要求和约束。考虑到之前证明的SQR [17]的功能和多功能性，考虑到SQR图的倾斜范围，进一步完善和扩展了功能，以实现更准确和更易访问的实现2. 软件描述PDF分析包，如图所示。2，有三个独立的组件：一个高层次的MATLAB用户界面的绘图和分析（显示为灰色），一个低层次的核心 C++ 类库的快速估计（蓝色），和 C++ 接口代码提供MATLAB和C++之间的通信（橙色）。每个组成部分将在以下三个小节中讨论。2.1. PDFE图中的蓝色块。 2描述了九个C++类，它们构成了PDFE的底层功能，并且它们可以作为独立的可执行文件单独编译。面向对象的类设计允许开发人员进行可定制的编程，以及无缝集成到流行的统计软件，如R和MATLAB。OutputControl类将错误和信息性消息定向到由头文件中的编译器指令指定的适当控制台。目前包括对命令行、MATLAB和R控制台的支持，但开发人员可以自定义其他输出协议。In-putParameters和WriteResults类分别处理PDFE的输入和输出，允许将示例数据和PDF结果传递给调用函数或使用文本文件进行处理InputData和ChebyChevs类分析随机样本以识别离群值，确定适当的自适应分辨率尺度，建立估计边珍妮·法默和唐纳德·J。雅各布斯软件X 18（2022）1010173界，并转换珍妮·法默和唐纳德·J。雅各布斯软件X 18（2022）1010174=-图二. PDFE（蓝色）、PDFAnalyze（灰色）和接口文件（橙色）的源文件结构。(For对于图中颜色的解释，请读者参考本文的网络版本数据到一个有限的范围。这些类中提供的方法共同定义了PDF估计的自动数据驱动参数。这种对数据的智能分析允许进行高吞吐量估计，而不需要用户的指导密度估计的核心处理包含在MinimizePDF和Score类中。可以通过实现Score虚拟模板类的实例来自定义其他评分二次z分数在ScoreQZ中作为默认评分方法实现。基于对数似然的ScoreLL是为PDFE实现的原始评分函数，并且作为附加示例被包括在内。2.2. MATLAB/C++接口EstimatePDF和CallPDF类，在图中以橙色显示。2、定义一个高级MATLAB函数调用的接口关于PDFE接口和PDFE类一起编译作为MATLAB可执行（mex）文件，创建一个名为EstimatePDF的自定义MATLAB函数。随机数据样本是EstimatePDF的必需输入。所有其他参数的默认值都经过调整，以在各种测试中产生最佳估计值，但可以根据自定义结果进行修改。例如，假设无限支持，边界设置为排除极端离群值。用户可以通过指定精确的上限和/或下限来绕过此行为。分辨率和平滑度主要可以通过两个参数进行调整。增加积分点或SURD目标的数量会增加分辨率、精度和处理时间。减少SURD目标创建更快和更平滑的估计。对这些参数的影响程度取决于分布，因此有必要进行实验。此外，可以修改拉格朗日乘数的限制，以通过缩小这些限制之间的范围来实现半参数拟合。通过将两个限值设置为相同的值，可以实现严格的参数方法。例如，将最小值和最大值都设置为1将强制执行均匀拟合。类似地，将它们分别设置为2或3会产生指数分布和高斯分布。这些高级选项允许高级别的干预，但对大多数用户来说不是必需2.3. PDF分析图中的四个灰色块。2表示设计用于控制PDF估计值的绘图和分析的MATLAB函数。FigureSettings覆盖MATLAB默认参数，以改善所有后续图形的外观和分辨率，创建高质量的图，以最大限度地提高可视化的效果。PlotBeta根据Beta分布创建阴影背景，Beta分布按位置表示SURD概率，阴影越深表示概率越高该背景在y轴上按样本大小自动缩放，在x轴上按样本数据范围可选缩放。GetTargets是beta分布的高精度数值积分器，用于获得SQR图的置信度等高线。这些实用程序函数可以独立调用，但PDFAna- lyze编排了所有这些实用程序。MATLAB帮助文档中给出了PDFAnalyze的详细用法3. 说明性实例为了说明PDFAnalyze中可用的图，考虑参数为c k 2的Burr分布。伯尔分布的特征是右侧有一条长尾，通常用于模拟家庭收入[21]。为便于比较，图3a和d分别显示了样本量为100和3000的准确目标PDF。图图3b和e是SQR图类型的示例，它们揭示了PDF分析的重要特征。蓝色散点表示估计值的SQR从EstimatePDF返回的每个采样点。灰色阴影和虚线表示按位置的SQR的相对概率和阈值。深色内部虚线和浅色外部虚线分别表示50%和98%置信水平，表示这些封闭椭圆形内预期数据的百分比。请注意，对于100个样本，98%的椭圆关于x轴不对称（图3b），但是对于3000个样本，这种不对称是不可区分的（图3e），因为SQR特征根据样本大小自动适应。超出98%阈值的SQR值以红色显示，突出显示估计值可能不适合的地方。类似地，50%阈值描述了预期约一半SQR值将落入的区域。估计可能是珍妮·法默和唐纳德·J。雅各布斯软件X 18（2022）1010175图三. PDF（第1列）、SQR（第2列）和组合（第3列）图类型示例，显示样本量100（第1行）和3000的毛刺分布(row2）的情况。见图4。 ksdensity（第1行）、kde（第2行）和PDFE（第3行）之间的比较示例，展示了三峰分布的多分辨率尺度。柱3显示了估计的PDF和精确的PDF，第2列是SQR，第3列是两者的组合当SQR图中的所有点都完全落在这个较小的椭圆内时，过拟合到样本数据图3c和f展示了一个组合的绘图类型，包括PDF和SQR的功能。虽然珍妮·法默和唐纳德·J。雅各布斯软件X 18（2022）1010176图五. ksdensity（第1行）、kde（第2行）和PDFE（第3行）之间的比较例，证明了固定边界的均匀分布。第3列显示了估计的PDF和精确的PDF，第2列是SQR，第3列是两者的组合虚线未示出，灰色阴影和红色标记保留作为视觉引导。阴影区域的形状通常会出现扭曲，因为它是沿x轴映射到样本数据以与PDF对齐的。落在98%阈值之外的样本数据点也在PDF上以红色标记，从而显示这些离群值沿估计值的位置。从统计学上讲，预计2%的SQR值将落在此阈值之外，因此红色标记不一定表示估计不佳，但是，大量的离群值肯定值得怀疑，如图所示。3E和F。红色区域主要沿毛刺分布的长尾分布，这一结果在采样不足的区域并不虽然适合的尾巴似乎相当不错，在图。3d时，以红色显示的SQR警告用户，估计的预期质量水平已经降低。通常情况下，随着样本量的增加，PDF的拟合度会提高，SQR中出现的红旗数量也会增加。这种与直觉相反的趋势反映了随着样本数据量的增加，误差容限变小。4. 影响PDFAnalyze中包含的SQR图为任何密度估计方法提供了一种视觉评估将PDFE与其他非参数方法进行比较，说明了其功能和优势。例如，MATLAB包含一个标准的KDE实现函数ksdensity。虽然KDE有已知的弱点，如边界估计和分辨率，但它是常用的，因为它是完全非参数的，产生快速的结果，并包括一个简单的界面。缓解问题在KDE中，已经开发了无数的变体[12，13，22一种这样的改进采用了线性扩散过程来实现自适应方法，并且已被证明可以改进标准KDE，特别是在广泛分离的多峰密度的情况下[26]。该方法是作为MATLAB函数kde实现的，可通过MathWorks文件交换网络[27]获得。多峰分布的一个例子如图所示。4，由三个独立的高斯分布组成。图 4 的顶行示出了多峰分布上的 3000 个样本数据点的ksdensity三个峰的平均值估计得很好，但标准差分布得太广。SQR图明确地标记了这些错误，显示每个均值两侧的数据样本都远远超出了98%的阈值。图的中间行。4展示了kde估计的相同分布，估计结果有很大改进。虽然SQR图没有指示问题区域的红色数据点，但几乎所有点都在50%阈值内，这表明采样数据过拟合。图的底部行。 4表明PDFE产生了一个很好的估计，SQR并不表明系统过拟合或欠拟合样本数据。关于均匀分布的另一个比较例区间（0，1）如图所示。五、尽管它很简单，但有限边界众所周知地挑战了传统的KDE方法。kde估计值再次暗示了对数据的过拟合，并且正如预期的那样，两种KDE方法在边界附近都产生了较差的估计值对于默认的KDE情况，SQR图中的椭圆提醒用户不准确，珍妮·法默和唐纳德·J。雅各布斯软件X 18（2022）1010177图六、均匀分布的 SQR（左）和PDF（右）估计值，边界修正值以ksdensity指定。他们的位置在估计范围内。有了这些信息，用户可以选择将边界校正项应用于KDE。图6示出了对于（0，1）上的有限边界支持，将BoundaryCorrection参数设置为“反射”的情况下，ksdensness的PDF和SQR图。这些有代表性的例子所显示的影响是双重的。首先，PDFE提供了优于KDE方法的强大的非参数估计，无需用户干预或专业知识。其次，PDF-Analyze创建的SQR图为评估任何估计的有效性提供了视觉线索，而无需知道确切的PDF。特别是，对于任何分布，样本大小，或PDF估计器。5. 结论和未来方向PDFAnalyze软件包已在MATLAB中实现，提供全自动数据驱动的非参数PDF估计工具以及无模型密度估计诊断。PDFAnalyze构建在称为PDFE的独立底层PDFAnalyze中包含的绘图和分析工具可识别估计值中与样本数据过度拟合或拟合不足的潜在区域。PDFE的并行化版本正在开发中，以提高精度和速度，特别是处理具有极端统计数据的重尾分布。未来的工作将扩展的方法，包括多维估计。CRediT作者贡献声明珍妮法默：概念化，方法论，写作-原始草案，软件，可视化。唐纳德·雅各布斯：超级视野，方法论，写作评论编辑，项目管理。竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作引用[1] 米科施T、deVriesCG。重尾巴的OLS。JEconometrics2013;172（2）：205-21.[2] Alemany R，Bolancé C，Guillén M.计算风险价值的非参数方法。InsuranceMath Econom2013;52（2）：255-62.[3]魏龙R等，不对称概率密度函数建模对数比SAR图像。IEEE GeosciRemote Sens Lett2016;13（3）：369-73.[4]王平平，云晓，张顺成。模拟地震规模概率分布的一种新方法。PhysicaA2014;413：385-93.[5]Pressé S等人，非加性熵产生的概率分布具有数据不保证的偏差。物理学评论快报2013;111（18）：1-4。[6]Lee M，Kang YS，SeokJ.的估计的概率分布，分布具有多个分类值的因子变量。PLoS One2018;13（8）：e0202547-e0202547。[7]Vanmourik S，Stigter H，Molenaar J.系统生物学模型的预测不确定性评估需要其参数的全概率分布的样本。PeerJ2014;2（1）.[8]Farmer J等人，量化分子动力学模拟轨迹之间相似性的统计措施。熵2017;19（（12）：646.[9]Munkhammar J，Mattsson L，Ryden J.使用矩量法的多项式概率分布估计。PLoS One2017;12（4）：e0174573.[10]TiganiS ， etal. ， Lowcomplexalgorithmforprobabilitydensityestimationappliedin big data analysis. Int J Comput Appl 2014;101（7）：1[11]METAPHOR：A machine-learning-based method for theprobability densityestimation of photometric redshift. Mon Not R AstronSoc2017;465 （ 2 ）：1959-73。[12]Sidibé A等人，使用自适应核密度估计进行异常血管轨迹检测的大数据框架。ACM; 2018，p.43比6[13]Tang L，et al.大数据量时空分析中线性特征的网络核密度估计。Int J GeogrInf Sci：Geogr Inf 大数据时代2016;30（9）：1717-37.[14]作者声明： D. 高通量非参数概率密度估计。 PLoS ONE2018;13 （ 5 ）：e0196937。[15]作者声明：D. PDFEstimator：非参数概率密度估计器。R软件包版本3.0。2021年，https://CRAN.R-project.org/package=PDFEstimate。[16]雅各布斯DJ。有限抽样的最佳概率密度函数。Entropy2008;11：1001-24.[17]Farmer J等人，用于密度估计中不确定性量化的通用样本大小不变度量。熵2019;21（11）：1120。[18]威尔克斯订单统计。 Bull Amer Math Soc1948;54（1）：6-50.[19]库尔贝克湾 Kullback-Leibler距离 Amer Statist 1987;41：340-1.[20]梅西FJ。Kolmogorov-Smirnov拟合优度检验。JAmerStatististAssumption1951;46（253）：68-78.[21]De Capitani L，Nicolussi F，Zini A.三变量burr-III copula在收入数据中的应用。Metron2017;75（1）：109-24。[22]Malec P，Schienle M.边界附近的非参数核密度估计。Comput Statistist DataAnal 2014;72：57[23]黑泽尔顿湾核平滑。Wiley StatsRef：Statistics Reference Online;2014.[24]McCarthyMT，PeaKDECk：一个基于核密度估计器的DNaseI-seq数据峰调用程序。Bioinform2014;30（9）：1302-4。[25]作者： J. J.下一代测序数据的自适应带宽核密度估计。 BMC Proc2013;7（S7）：1-10。[26]Botev ZI ， Grotowski JF ， Kroese DP. 通过扩散的核密度估计。 AnnStatist2010;38（5）：2916-57.[27] 博特夫Z核密度估计2020，https://www.mathworks.com/matlabcentral/fileexchange/14034-kernel-density-estimator，MATLAB FileCentral Exchange.2020年3月17日恢复

下载后可阅读完整内容，剩余1页未读，立即下载