EPA PMF数据分析教程:配置与输出文件详解

需积分: 50 78 下载量 28 浏览量 更新于2024-08-08 收藏 9.58MB PDF 举报
"本教程主要涉及的是环境监测领域中使用的一种源解析模型——PMF(Positive Matrix Factorization),尤其在可靠性数据分析方面的应用。用户可以通过配置文件来设定输出选项,包括输出目录、文件类型(如.txt、.CSV或.xls)以及文件前缀。在输出时,会生成多种类型的文件,如*_base.xls包含了轮廓、贡献值、残差和运行比较,而*_diagnostics.xls则包含了总结、输入和基本运行信息。此外,还有如*_profile_boot、*_DISPres等附加文件,用于保存引导次数、BS映射统计、FPEAK运行贡献等详细数据。PMF模型通过分解数据矩阵,寻找源贡献(G)和因子(F),用户需结合实际的源配置文件进行解读。模型的优化依赖于Q参数,Q(真)和Q(鲁棒)分别代表整体拟合优度和排除异常点后的拟合优度。为了找到全局最优解,模型可能需要进行多次迭代,每次迭代可能因随机种子的不同而产生不同的结果。在选择最佳运行时,通常依据Q(鲁棒)的稳定性,其值的变化能反映模型运行的稳定性和可靠性。" 在PMF源解析模型中,数据分析的核心是将采样数据分解为两个关键部分:贡献矩阵(G)和因子矩阵(F)。G矩阵代表了各个源对样本的贡献程度,而F矩阵包含了未知源的特征。模型的优化过程是通过最小化Q参数,Q参数有两个版本,Q(真)考虑所有数据点,而Q(鲁棒)则排除了那些残差超出不确定度四倍的数据点,以减少异常值对结果的影响。 在实际操作中,EPA PMF软件提供了一个配置文件,允许用户预先设定运行参数,如输出路径、文件类型和前缀。输出文件通常包括基本信息和诊断信息,如*_base.xls和*_diagnostics.xls,前者涵盖了模型运行的各种关键指标,后者则提供了输入数据和基本运行的详情。此外,还会有多个附加文件,如*_profile_boot记录引导统计,*_DISPres保存DISP输出,以及*_fpeak记录FPEAK运行的贡献。 PMF模型的求解依赖于多线性多次迭代(ME)算法,该算法从随机因子配置开始,通过梯度法寻找最优解。由于随机性的存在,可能只能找到局部最优而非全局最优,因此推荐进行多次运行以筛选出Q(鲁棒)值最稳定且最小的运行结果,作为最终的分析结果。Q(鲁棒)的稳定性是评估模型可靠性的关键指标,若在不同运行中Q(鲁棒)值变化小,表明模型对数据的解释是稳定的。