Spark 2.0 特征工程详解：提取、转换与选择

需积分: 10 67 浏览量更新于2024-07-19 收藏 81KB DOCX 举报

"Spark 2.0 特征处理涵盖了从数据预处理到特征选择的一系列重要步骤，包括特征提取、特征变换和特征选择。这些技术对于机器学习模型的性能至关重要，因为它们能够将原始数据转化为可以被算法有效利用的形式。以下是关于这些主题的详细解释： 1. **特征提取**： - **TF-IDF**：TF-IDF（词频-逆文档频率）是衡量文本中单词重要性的标准。它通过结合词频和逆文档频率来计算每个词的权重，降低常见词汇的影响，提高对文档主题区分度高的词的权重。 - **Word2Vec**：Word2Vec是一种用于学习单词向量的神经网络模型，它可以捕捉单词之间的语义和语法关系，生成的向量空间中，相似的单词会更接近。 - **CountVectorizer**：CountVectorizer将文本数据转换为稀疏向量，表示每个单词在文档中的出现次数。 2. **特征变换**： - **Tokenizer**：将文本数据分解为单独的单词，是文本预处理的第一步。 - **StopWordsRemover**：移除常见的停用词，如“的”、“是”等，减少噪声。 - **n-gram**：将连续的单词组合成n个单词的短语，用于捕获文本中的连贯信息。 - **Binarizer**：将特征转换为二进制形式，即特征值要么为0要么为1，适用于特征重要性非二元的情况。 - **PCA**（主成成分分析）：降维技术，通过线性变换将高维数据转换为低维表示，保留大部分方差。 - **PolynomialExpansion**：多项式扩展将特征进行多项式组合，增加模型复杂性，捕捉潜在的非线性关系。 - **DiscreteCosineTransform (DCT)**：离散余弦变换用于数据压缩和信号处理，有时在特征变换中用于降噪。 - **StringIndexer**：将分类变量转换为数值索引，便于机器学习模型处理。 - **IndexToString**：将模型预测的索引结果转换回原始分类标签。 - **OneHotEncoder**：将分类变量转换为一组二进制变量，每个类别对应一个二进制列。 - **VectorIndexer**：自动识别最佳的特征类别，并将其转换为索引。 - **Normalizer**：通过调整特征的范数（如L1或L2范数）确保特征尺度一致。 - **StandardScaler**：对数据进行中心化和缩放，使每个特征具有零均值和单位方差。 - **MinMaxScaler**：将特征缩放到指定的最小和最大值之间，保持特征之间的相对差距。 - **MaxAbsScaler**：按特征的最大绝对值进行缩放，避免某些特征因值过大而主导模型。 - **Bucketizer**：将连续特征转换为离散的“桶”或区间，用于分类。 - **ElementwiseProduct**（Hadamard乘积）：特征间的逐元素乘法，可用于特征组合或放大某些特征的重要性。 - **SQLTransformer**：允许使用SQL查询进行数据转换，灵活且易于理解。 - **VectorAssembler**：将多个特征组合成一个单一的向量特征，方便输入到模型中。 - **QuantileDiscretizer**：根据分位数将连续特征离散化，用于分类。 3. **特征选择**： - **VectorSlicer**：选择向量中的特定特征，用于减少特征数量，提高模型效率。 - **RFormula**：基于R语言的模型公式来指定特征与目标变量的关系。 - **ChiSqSelector**：使用卡方检验选择特征，评估特征与目标变量的相关性。这些工具和技术构成了Spark MLlib库的一部分，帮助数据科学家高效地准备数据，构建高质量的机器学习模型。理解并正确应用这些方法对于提升模型预测能力至关重要。"

valsentenceDataFrame=spark.createDataFrame(Seq(

(0,"Hi I heard about Spark"),

(1,"I wish Java could use case classes"),

(2,"Logistic,regression,models,are,neat")

)).toDF("label","sentence")



valtokenizer=newTokenizer().setInputCol("sentence").setOutputCol("words")

valregexTokenizer=newRegexTokenizer()

.setInputCol("sentence")

.setOutputCol("words")

.setPattern("\\W")// alternatively .setPattern("\\w+").setGaps(false)



valtokenized=tokenizer.transform(sentenceDataFrame)

tokenized.select("words","label").take(3).foreach(println)

valregexTokenized=regexTokenizer.transform(sentenceDataFrame)

regexTokenized.select("words","label").take(3).foreach(println)

请阅读英文原文

&2

和

 &



了解相关的

%$

的

详细信息。

[0,Hi I heard about Spark]

[1,I wish Java could usecaseclasses]

[2,Logistic,regression,models,are,neat]



[WrappedArray(hi, i, heard, about, spark),0]

[WrappedArray(i, wish, java, could, use,case, classes),1]

[WrappedArray(logistic,regression,models,are,neat),2]

在



中

在

@&???&? ?0??&?&?&=&@

找

到完整的示例代码。



（停用字清除）

-

 （停用字） 是（在文档中）频繁出现，但未携带太多意义的词语，它们不应该

参与算法运算。

2

（的作用是）将输入的字符串（如分词器





的输出）中的停

用字删除（后输出）。停用字表由



参数指定。对于某些语言的默认停止词是通

过调用

=&&"&  #

设置的，可用的选项为

丹

麦

，

荷兰语

、

英语

、

芬兰语

，

法国

，

德国

、

匈牙利

、

意大利

、

挪威

、

葡萄

牙

、

俄罗斯

、

西班牙

、

瑞典

和

土耳其

。布尔型参数



指示是否区分大

小写（默认为否）。

Examples

假设有如下



，有



和

-

两列：

id | raw

----|----------

剩余26页未读，继续阅读

甘于寂寞，敢于寂寞

粉丝: 0
资源: 2

Spark 2.0 特征工程详解：提取、转换与选择

Spark 2.0入门：大数据处理与实战

掌握Spark 2.0入门指南：Scala与Python实战

使用火焰图深入探究Apache Spark 2.0性能提升

spark2.0-examples:Spark 2.0的示例

Spark 2.0概览

spark 2.0 详解

Spark for Data Science spark2.0

ApacheSpark2.0PerformanceImprovementsInvestigatedWithFlameGraphs

spark2.0 for Begginners

Spark2.0新特性

最新资源