机器学习中的特征提取与预处理技术

需积分: 50 31 浏览量更新于2024-07-18 收藏 2.68MB PDF 举报

"特征提取与预处理是机器学习中至关重要的一环，涉及到对不同类型的数据进行有效转化以便模型理解和处理。本章主要关注如何处理分类变量和文字信息，包括独热编码和词库模型的应用。分类变量特征提取是解决包含非数值特征问题的关键步骤。在机器学习中，如工作地点预测工资的案例，分类变量如'NewYork', 'SanFrancisco', 'ChapelHill'不能直接作为输入。独热编码（One-hot Encoding）是一种常见的处理方法，它将每个分类转化为一组二进制特征，例如，'NewYork'可以表示为[0, 1, 0]，'SanFrancisco'为[0, 0, 1]。独热编码确保了分类变量间的独立性，避免了数值比较的误导，但可能导致高维稀疏数据，增加计算负担。对于文字特征的处理，自然语言处理（NLP）领域常用的工具是词库模型（Bag-of-Words Model）。这个模型忽略了词的顺序和语法结构，仅关注文档中词的出现频率。例如，三个文档如果分别包含'cat', 'dog', 'cat'，则对应的词库表示可能为[[0, 1, 0], [0, 0, 1], [1, 0, 0]]。这种表示方式可以转化为向量形式，便于机器学习算法处理。然而，词库模型忽视了词汇的上下文关系和词序信息，因此在处理复杂的语义时可能会有所欠缺。在预处理阶段，特征提取还包括其他技术，如TF-IDF（Term Frequency-Inverse Document Frequency）权重计算，用于量化词的重要性，以及词嵌入（Word Embedding）如Word2Vec或GloVe，这些方法能捕捉词的语义信息，生成连续的向量空间，进一步提升模型性能。预处理和特征提取的目的是将原始数据转化为适合机器学习模型的形式，这个过程对于后续的建模和预测效果有着直接影响。在实际应用中，选择合适的特征工程策略并结合业务理解，可以显著提升模型的预测能力和泛化能力。"

In[6]:

corpus = [

'UNC played Duke in basketball',

'Duke lost the basketball game',

'I ate a sandwich'

]

vectorizer = CountVectorizer()

print(vectorizer.fit_transform(corpus).todense())

print(vectorizer.vocabulary_)

通过CountVectorizer类可以得出上面的结果。词汇表里面有10个单词，但a不在词汇表里面，是

因为a的长度不符合CountVectorizer类的要求。

对比文档的特征向量，会发现前两个文档相比第三个文档更相似。如果用欧氏距离（Euclidean

distance）计算它们的特征向量会比其与第三个文档距离更接近。两向量的欧氏距离就是两个向量欧

氏范数（Euclidean norm）或L2范数差的绝对值：

向量的欧氏范数是其元素平方和的平方根：

scikit-learn里面的euclidean_distances函数可以计算若干向量的距离，表示两个语义最相似的

文档其向量在空间中也是最接近的。

In[15]:

from sklearn.metrics.pairwise import euclidean_distances

counts = vectorizer.fit_transform(corpus).todense()

for x,y in [[0,1],[0,2],[1,2]]:

dist = euclidean_distances(counts[x],counts[y])

print('文档{}与文档{}的距离{}'.format(x,y,dist))

如果我们用新闻报道内容做文集，词汇表就可以用成千上万个单词。每篇新闻的特征向量都会有成千

上万个元素，很多元素都会是0。体育新闻不会包含财经新闻的术语，同样文化新闻也不会包含财经

新闻的术语。有许多零元素的高维特征向量成为稀疏向量（sparse vectors）。

用高维数据可以量化机器学习任务时会有一些问题，不只是出现在自然语言处理领域。第一个问题就

是高维向量需要占用更大内存。NumPy提供了一些数据类型只显示稀疏向量的非零元素，可以有效

处理这个问题。

∥

−

∥

+ +

⋯

‾ ‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾

√

[[0 1 1 0 1 0 1 0 0 1]

[0 1 1 1 0 1 0 0 1 0]

[1 0 0 0 0 0 0 1 0 0]]

{'unc': 9, 'played': 6, 'game': 3, 'in': 4, 'ate': 0, 'basketba

ll': 1, 'the': 8, 'sandwich': 7, 'duke': 2, 'lost': 5}

文档0与文档1的距离[[ 2.44948974]]

文档0与文档2的距离[[ 2.64575131]]

文档1与文档2的距离[[ 2.64575131]]

计算若干向量的距离

X,Y表示两个文档

使数据类型转化为字符

串

剩余14页未读，继续阅读

城南花开了

粉丝: 0
资源: 5

机器学习中的特征提取与预处理技术

人脸特征提取与预处理源码详解

数据挖掘与机器学习：特征提取与预处理

机器视觉算法详解：特征提取与预处理

信号处理与模式识别：特征提取与预处理关键

模式识别中的信息处理：从特征提取到预处理

影像组学特征提取 图像预处理归一化

mfcc.rar_语音处理 特征_语音特征参数_语音特征提取_语音预处理

SVM.rar_图像处理_图像提取数据_图片预处理_提取图片 做特征提取_特征提取

指纹图像的预处理与特征提取

指纹识别技术研究：基于细节特征点的预处理与提取

最新资源

影像组学特征提取图像预处理归一化

mfcc.rar_语音处理特征_语音特征参数_语音特征提取_语音预处理

SVM.rar_图像处理_图像提取数据_图片预处理_提取图片做特征提取_特征提取