拓展线性回归：非线性映射与概率解释

需积分: 0 195 浏览量更新于2024-08-05 收藏 548KB PDF 举报

线性回归是统计学和机器学习中的基础模型，它描述了因变量与一组自变量之间线性关系的预测方法。在经典的线性回归模型中，目标变量\( y \)被视为输入变量\( \mathbf{x} \)的线性组合，即\( y = w_0 + w_1x_1 + ... + w_dx_d \)，其中\( w_i \)是权重参数，\( x_i \)是输入特征，\( w_0 \)是偏置项，代表当所有输入为0时的预测值。然而，原始的线性模型具有一定的局限性，因为它假设输入变量之间的关系是线性的。为了扩展模型的表达能力，我们可以引入非线性基函数\( \phi(\cdot) \)，将输入变量转换为新的特征空间。例如，多项式回归就是一种常见的基于基函数的线性回归，通过不同阶的多项式来捕捉输入的复杂关系。另一种非线性基函数如高斯核函数或sigmoid函数可以引入非线性依赖。在这个通用化的概率解释中，我们假定目标变量\( y \)服从高斯分布，加上了加性高斯噪声。给定输入数据集\( \{(\mathbf{x}_i, y_i)\}_{i=1}^n \)，我们想要找到一组参数\( \theta \)使得数据点的观测值最有可能来自这样的噪声模型。为此，我们最大化似然函数，也就是最大化数据点落入模型的概率。通过取对数似然并将其转化为负对数似然（NLL），我们得到了损失函数，通常选择平方和误差（MSE）作为损失，因为它的梯度简化了求解过程。最大化似然时，我们通过设置NLL关于参数的梯度等于0，得到最小二乘问题的规范方程，这是一个关于设计矩阵\( \mathbf{X} \)和偏置项的线性方程组。设计矩阵是由输入特征经过基函数映射后的列向量构成的，而偏置系数\( w_0 \)则在矩阵形式的正规方程中单独处理。最后，理解偏置系数的重要性在于它不仅仅是模型的一部分，而且在某些情况下，它提供了模型预测的一个基准值。通过最小二乘法解决的规范方程，我们不仅求得了模型参数，也明确了模型的预测结构，这对于理解模型行为以及进行预测具有重要意义。总结来说，线性回归的通用化概率解释涉及到模型的扩展、非线性变换、最大似然估计以及优化方法的应用，这些都是在实际数据分析和机器学习中不可或缺的技术。通过理解和掌握这些概念，我们可以构建出更强大的模型来适应复杂的数据模式。

线性回归的通用化概率解释

【参考资料】

PRML 第三章



1. 线性回归的拓展

回归问题的最简单模型是输入变量的线性组合：

其中。这就是线性回归模型。这个模型的关键性质是它是参数的一个线性函数，但

同时，它也是输入变量的一个线性函数，这给模型带来很大的局限性。因此我们这样扩展模型的类别：将输入变量

进行非线性映射，然后再建立它们的线性组合，形式为：

其中，被称为基函数（basis function），是偏置。通过把下标的最大值记作，这个模型的参数总数

为。

通常，定义一个额外的“虚基函数” ，有：

其中且。

当我们使用基函数时，实际上我们相当于对原始的输入进行了特征变换，新生成的特征就是各基函数的值。

通过使用非线性基函数，我们能够让函数成为输入向量的一个非线性函数。但是，形如式（1.2）的模型仍

被称为线性模型，因为这个函数是的线性函数。

多项式回归就是用基函数拓展的线性回归中的一种。除此以外，还会使用高斯基函数：

或者sigmoid基函数：

其中是sigmoid函数，定义为：

下载后可阅读完整内容，剩余3页未读，立即下载

天眼妹

粉丝: 28
资源: 332

拓展线性回归：非线性映射与概率解释

matlab多元非线性回归教程.docx

通用版2020高考数学二轮复习规范解答集训三概率与统计文201912092105

全国通用2016高考数学二轮复习第2部分大专题综合测7概率与统计文含解析

全国通用2016版高考数学考前三个月复习冲刺中档大题规范练2概率与统计理

被动毫米波成像目标检测的鲁棒正则化核回归算法

matlab 高斯回归函数

线性回归与激活函数：从感知器到神经网络

利用MATLAB和Excel进行多元线性回归的树干体积分析

负指数函数回归分析：SAS系统中的非线性拟合

LinkedIn的通用线性混合模型：大规模响应预测利器

最新资源