随机森林与删失数据：地球科学中的空间预测新方法

PDF格式 | 2.71MB | 更新于2025-01-16 | 123 浏览量 | 举报

"该文探讨了在地球科学中利用人工智能，特别是基于随机森林的方法，来处理删失响应变量的空间预测问题。文章指出，由于测量限制，响应变量的观测值经常出现删失，传统的空间预测方法可能无法准确处理这种情况。文中提出了一种新的机器学习策略，即使用随机森林结合主成分分析和随机二次规划来考虑删失观测值，从而构建更精确的预测模型。这种方法通过训练仅包含未删失观测值的数据子集，然后将观测值转换为线性方程和不等式系统，最终解决这一系统以重建回归树预测器。在模拟数据和真实地球化学数据上的应用表明，该方法能更有效地利用删失观测值，提高预测准确性。" 本文的核心知识点包括： 1. **地球科学中的空间预测**：在地球科学的多个分支中，需要对连续响应变量进行空间预测，以理解其分布和变化趋势。 2. **删失观测值**：由于技术限制，响应变量的观测值可能会被删失（左删失、右删失或区间删失），这对预测带来了挑战。 3. **随机森林预测**：随机森林是一种强大的机器学习算法，常用于回归和分类任务，文章将其应用于处理删失响应变量的空间预测。 4. **主成分分析(PCA)**：PCA是一种统计方法，用于降维和数据转换，文中用于处理和翻译响应变量的观测值。 5. **随机二次规划**：在解决线性等式和不等式系统时，采用随机二次规划来找到最佳解，构建出符合删失观测值的回归树预测器。 6. **回归树预测器**：回归树是随机森林的一部分，用于预测连续响应变量，文中通过训练未删失观测值构建预测器。 7. **数据子集训练**：只使用未删失的响应变量观测值来训练回归树，避免了因删失数据导致的偏差。 8. **预测结果集成**：通过平均随机森林中的所有预测器输出，得到最终的空间预测结果，提高了预测的稳定性和准确性。 9. **模拟和实际数据验证**：文章通过模拟数据和真实地球化学数据的案例展示了新方法的有效性，证明其在处理删失观测值时的优越性。 10. **机器学习在地球科学的应用**：强调了机器学习在处理复杂地学问题，尤其是数据密集型和多变量问题中的重要作用。通过这些方法，科学家们可以更好地理解和预测地球表面的各种现象，如地层结构、化学元素分布、气候模式等，这对于资源管理、环境监测和灾害预警具有重要意义。

富埃吉

奥

地球科学中的人工智能

（

2021

）

115

117

f g

ð Þ2¼

我

爱你

不

2 g

...

θ2R

;

唯一的（与其他人的相关性较低），由于自举的

训练数据和随机选择预测变量的子集

轴

;

（

）

将多元回归树模型编织在一起，减少了

预测方差，提高了预测精度。回归

随机森林的预测是通过对所有回归树的预测求平均来获得的

随机森林在空间预测中的流行依赖于其

有效处理许多预测变量的能力，

处理复杂的

非线性关系和相互作用，需要较少的数据预处理，并且是非参数

方法（无模型）。回归随机森林有一些调优参数，可以通过交叉验证

过程

进行优化。其中，有树的数量，在每个节点随机选择的预测变量的数

量，每个回归树中样本的观察比例，以及最小数量。

回归树的终端节点中的观测值通常主张

其中θ

l1;

在Eq中给出的参数（一）. 考虑了所有PC因素，因此没有截断。

我们

要给

每个

系数

;

...; L

在

f Z = x x x 2 G g

处

完全遵循响应变量的观测值（未经审查，

截尾），即，Zx

;i1; 为了实现这一点，

响应变量在采样位置的观测值（未

删失和删失）

被转换为一组等式和不等式约束，使用方程。（二）、因此，

下面的等式和不等式系统

1 2

为了将树的数目设置为较大的数目，允许预测误差收敛到稳定的最小值

（Hengl等人，2018年）。的R

...

：

<$1

<$$> θ

<$2

<$x

<$$>

<$$><

$L<$

<$x

<$2A

（三

）

软件包ranger（Wright和Ziegler，2017）和tuneRanger（Probst等人，

2018）实现回归随机森林。

所提出的用于空间预测的机器学习方法

首先在仅

包含响应变量的未删失

（精确）观测值的数据子集上训练经典回归随机森林。

结果是回归树预测

器的集合

：

$^1

;

...; B，其中B是树上回归i的个数

在这个

其中fθ

<$1;

（i<$1，因此，等式和不等式系统定义在方程。（3）由

响应变量的观测值（未删失和删失）引起。通过这种方式，

响应变量的删

失观测值自然被纳入

帐户. 条件PC系数θ<$θ;

阶段，响应变量的删失（区间）观测值尚未

考虑了此外，个体回归树预测因子并不完全尊重响应变量在未删失采样

位置的观察值。

因此

，

：

;

...;B将被称为“无条件回归树预测器”。接

下来的步骤旨在生成条件

回归树预测器，完全尊重响应变量的

响应变量的观测值（未删失的和删失的）通过求解以下随机二次优化问

题（Fouedjio等人，2021 a; Fouedjio，2021）：

min

受

;

在截尾和未截尾抽样位置的观察。

2.2.

主成分分析

所提出的机器学习方法的第二步包括对非线性系统的集合执行主成

分分析（PCA）

树预测函数

的

条件

回归

x ~

b ~

安排

为A

其中βNμ;

多元正态分布

的平均值μ和协方差矩阵x使用无条件PC系数

;

<$1

;

...; L计算，该系数来自无条件回归树预测因子的PCA，（一）.

特别是，

“

;

...

矩阵XΓ（B×N），每行表示一棵回归树

b¼1

b;l

l¼1;

B b

预测器

：

G. 我们

可以

得到

如下

的

分解

有限尺寸：

（

）

（

）（

b）（

对于每个蒙特卡罗样本β

~Nμ;t1;

~ 100

1 0 0

100

（

1）A、

、C、D、

编程（

Goldfarb

和

Idnani

，

1983

年）进行，以找到解决方案

其中f

b;l

是主成分（

）得分（系数），

满足复合约束（等式和不等式）并最小化等式中定义的二次目标函数

的

（4）、的

;

l¼1;

flx：x2Gg

tions）; L min（B，N）。

当量（1）可以解释为一组图像的分解

：

分解

为

一组

特征图像

：

;

...; L

和系数

f α b ; l g l <$1;...; L

。PC因

子被认为是固定的，而PC系数被认为是随机的。可以看出，PCA是一

种...

在这里被表示为正交分解方法而不是降维技术。保留所有PC因子，如方

程式所示（一）. PCA的双射属性允许从PC系数重建回归树预测器。换句

话说，一旦使用了所有PC因子和系数，就可以重建图像

2.3.

随机二次规划

所提出的机器学习方法的第三步包括在由等式描述的PCA分解下生

成新的主成分（PC）系数（1）使得回归树预测器

精确地遵守响应变量在

采样位置处的观测（未删失和未

删失）。让

方程中的协方差矩阵（4）是一个对角矩阵，因为PC

系数与结构无关。条

件

系数θ

也

可以通过Gibbs采样方法生成（Fouedjio等人，2021年b）。

然而，这种方法对于非常大

的数据集可能是耗时的，因为吉布斯采样器生成高

度相关的样本。

正如我们在Eq中所看到的。（3）响应变量的观测值无条

件回归树预测器B的数量应该足够大，以便

在求解

方程中定义（三）、实

际上，不相关回归树预测因子的数量越大，方程中定义的线性等式和不等

式系统的解空间就越宽（三）、此外，相对于太少的无条件回归树预测器，太

多的复合约束（硬和不等式数据）将导致低不确定性。

值得一提的是，在随

机二次规划下，条件回归树预测

子

的数目不依赖于无条件回归树预测子

的

数目。也就是说，

可以小于或大于B。

剩余12页未读，继续阅读

cpongm

粉丝: 6

随机森林与删失数据：地球科学中的空间预测新方法

cole_02_0507.pdf

工程硕士开题报告：无线传感器网络路由技术及能量优化LEACH协议研究

【东海期货-2025研报】东海贵金属周度策略：金价高位回落，阶段性回调趋势初现.pdf

图像数据处理工具+数据(帮助用户快速划分数据集并增强图像数据集。通过自动化数据处理流程，简化了深度学习项目的数据准备工作)

diminico_02_0709.pdf

agenda_3cd_01_0716.pdf

A课件Python全栈开发线下班.zip

diminico_02_1108.pdf

基于人工智能大模型技术的果蔬农技知识智能问答系统.pdf

diminico_02_0307.pdf

最新资源