PCA算法对特征均值的要求与数据归一化

需积分: 24 85 浏览量更新于2024-08-06 收藏 2.59MB PDF 举报

"无监督特征学习和深度学习教程" 在机器学习领域，特征的处理是至关重要的，特别是在深度学习中。标题提到的"特征的均值大致为-pcie m.2 spec"可能是一个类比，指的是在处理数据时，特征的均值应该接近于零，就像PCI-E M.2规范中的某种标准或期望值。在数据分析和机器学习中，这种处理通常被称为零均值化（mean normalization），即调整特征使其平均值接近于0，这是为了确保数据的平稳性（stationarity）。描述中指出，PCA（主成分分析）是依赖于特征的特定属性的，即特征的均值接近于0和特征的方差相似。在自然图像的数据集中，由于不同特征的方差通常很接近，所以通常不需要进行方差归一化。PCA算法的一个关键特性是对输入数据的缩放不变性，这意味着输入数据的数值大小改变不会影响PCA计算出的特征向量。因此，即使数据的数值范围很大，PCA依然能保持稳定。在进行PCA之前，执行均值规整化是必要的，主要是为了消除数据集中的全局趋势，例如图像的整体亮度。在图像识别任务中，整体亮度并不影响图像内容的识别，所以减去图像的平均亮度值可以达到均值规整化的目的。这个过程可以表示为，对于一个16x16图像块，如果有256个亮度（灰度）值x(i)，则可以将每个值减去图像块的平均亮度，使得特征的均值接近于0。标签"深度学习教程"表明这个话题与深度学习的学习和实践相关。内容引用了UFLDL教程，这是一个经典的深度学习和无监督特征学习的在线教程，由Andrew Ng等人编写。教程涵盖了基本的机器学习概念，如监督学习、逻辑回归和梯度下降，以及更复杂的主题如稀疏自编码器和神经网络。在神经网络部分，教程介绍了单个神经元的结构，它接受多个输入x1, x2, x3，并通过激活函数f(WTx + b)进行转换，这里的f通常是sigmoid或tanh函数。这种简单的神经元模型实际上就是逻辑回归的非线性扩展。在本教程中，作者选择了不使用x0=1的传统约定，而是用独立的截距参数b来表示偏置。这个资源提供了深度学习的基础知识，包括特征预处理、神经网络模型以及无监督学习的原理，适合那些已经具备机器学习基础的读者进一步深入学习深度学习技术。

Fesgrome

粉丝: 36
资源: 3896

PCA算法对特征均值的要求与数据归一化

求助模糊C均值聚类FCM-fcm2.m

均值-方差-离散系数-EXCEL-计算表.xls

区块链行业专题：BNB相对估值，低于主流平台通证和传统交易所，低于历史均值-1106-通证通研究院-14页.pdf

用python随机生成满足正态分布的5维数据，计算该5维数据的均值向量和协方差矩阵，并计算和输出其概率密度函数

[ 4., 4.], [-4., -4.], [ 8., -8.], [-8., 8.] 矩阵方差

生成一个10阶的随机矩阵，满足均匀分布，且均值为0.（不能用rand(10)）

rolling(m,min_periods=m)

用python构建一个9行6列的dataframe，数据是-10至10的随机数，最多保留2位小数，将每个数值除以该行的均值后除以该行的标准差

最新资源