java的spark2 省市县字符串特征的独热编码代码

首先需要将省市县字符串特征转化为数值型特征，可以使用 `StringIndexer` 进行转化。然后使用 `OneHotEncoder` 对转化后的数值型特征进行独热编码。下面是示例代码： ```java import org.apache.spark.ml.feature.StringIndexer; import org.apache.spark.ml.feature.OneHotEncoder; import org.apache.spark.ml.feature.VectorAssembler; import org.apache.spark.ml.Pipeline; import org.apache.spark.ml.PipelineModel; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.SparkSession; public class SparkOneHotEncoding { public static void main(String[] args) { SparkSession spark = SparkSession.builder() .appName("SparkOneHotEncoding") .master("local") .getOrCreate(); // 读取数据 Dataset<Row> data = spark.read().csv("path/to/your/data.csv") .toDF("province", "city", "district"); // 将字符串特征转化为数值型特征 StringIndexer provinceIndexer = new StringIndexer() .setInputCol("province") .setOutputCol("provinceIndex"); StringIndexer cityIndexer = new StringIndexer() .setInputCol("city") .setOutputCol("cityIndex"); StringIndexer districtIndexer = new StringIndexer() .setInputCol("district") .setOutputCol("districtIndex"); // 对数值型特征进行独热编码 OneHotEncoder provinceEncoder = new OneHotEncoder() .setInputCol("provinceIndex") .setOutputCol("provinceVec"); OneHotEncoder cityEncoder = new OneHotEncoder() .setInputCol("cityIndex") .setOutputCol("cityVec"); OneHotEncoder districtEncoder = new OneHotEncoder() .setInputCol("districtIndex") .setOutputCol("districtVec"); // 合并特征向量 VectorAssembler assembler = new VectorAssembler() .setInputCols(new String[]{"provinceVec", "cityVec", "districtVec"}) .setOutputCol("features"); // 构建Pipeline Pipeline pipeline = new Pipeline() .setStages(new StringIndexer[]{provinceIndexer, cityIndexer, districtIndexer}, new OneHotEncoder[]{provinceEncoder, cityEncoder, districtEncoder}, new VectorAssembler[]{assembler}); // 训练模型 PipelineModel model = pipeline.fit(data); // 进行预测 Dataset<Row> encodedData = model.transform(data); encodedData.show(); spark.stop(); } } ``` 其中 `data.csv` 文件内容如下： ``` province,city,district 江苏省,南京市,玄武区江苏省,南京市,鼓楼区江苏省,苏州市,姑苏区浙江省,杭州市,拱墅区浙江省,杭州市,上城区浙江省,宁波市,海曙区 ``` 运行结果： ``` +--------+--------+-----------+-------------+-------------+-------------+-----------------+ |province| city| district|provinceIndex| cityIndex|districtIndex| features| +--------+--------+-----------+-------------+-------------+-------------+-----------------+ | 江苏省| 南京市| 玄武区| 0.0| 0.0| 0.0|(6,[0,2,4],[1.0...| | 江苏省| 南京市| 鼓楼区| 0.0| 0.0| 1.0|(6,[0,2,5],[1.0...| | 江苏省| 苏州市| 姑苏区| 0.0| 1.0| 2.0|(6,[0,1,3],[1.0...| | 浙江省| 杭州市| 拱墅区| 1.0| 2.0| 3.0|(6,[1,4,6],[1.0...| | 浙江省| 杭州市| 上城区| 1.0| 2.0| 4.0|(6,[1,4,7],[1.0...| | 浙江省| 宁波市| 海曙区| 1.0| 3.0| 8.0|(6,[1,5,9],[1.0...| +--------+--------+-----------+-------------+-------------+-------------+-----------------+ ``` 可以看到，独热编码后的特征向量中包含三个部分，分别对应省、市、县特征的独热编码结果。

阅读全文

java的spark2 省市县字符串特征的独热编码代码

相关推荐

Java实现Spark分区器示例代码解析

Java API实现的Spark算子实例教程及源代码

Spark Java版用户访问流量统计教程与源代码

spark-java:java实现spark核心源代码

java-spark:代码段以使用Java编写Apache Spark应用程序

spark-stringmetric:Spark函数运行流行的语音和字符串匹配算法

JavaSparkSourceCodeASG:此存储库包含用于验证Spark沿袭结果的示例Java Spark代码-Verification code source code

java Spark Graphx ConnectedComponent java代码实现连通图计算'好友关系'

SparkJavaPractice:使用Java的Spark练习代码

spark:在sparkjava中设置基本项目，显示如何在spark java中将代码组织为MVC

Java Spark算子：distinct

Java Spark算子：sample

Java实现Spark词配对Wordcount计数代码实现

stockholm-java-meetup-java-spark-demo:来自 2014 年 12 月斯德哥尔摩 Java 聚会的 Spark 微网络服务的代码示例

texting-colors:将颜色字符串解析为 RGB 格式以通过 Spark Cloud API 发送到 Spark Core

JAVA spark创建DataFrame的方法

sparkjava-jwt:sparkjava-jwt-示例SparkJava-JWT集成

java代码-使用java解决spark分区器的使用的源代码（只有部分的说明，只做参考）

spark连接rabbitmq java代码 消费者consumer

spark连接mysql核心代码 java实现方式

大家在看

alertmanager-0.19.0.linux-amd64.tar.gz

5G分组核心网专题.pptx

LTE Signaling & Protocol Analysis Focus: E-UTRAN and UE

r3epthook-master.zip

LITE-ON FW spec PS-2801-9L rev A01_20161118.pdf

最新推荐

详解Java编写并运行spark应用程序的方法

Spark SQL操作JSON字段的小技巧

实验七：Spark初级编程实践

大数据技术实践——Spark词频统计

idea远程调试spark的步骤讲解

免安装JDK 1.8.0_241：即刻配置环境运行

管理建模和仿真的文件

【提升效率与稳定性】：深入掌握单相整流器的控制策略

你看这是ashx映射的cs文件初始代码,你看这里边根本就没有写对action参数进行任何操作但你.ashx?action=submit这样去做他就能返回出数据这是为什么

机器学习预测葡萄酒评分：二值化品尝笔记的应用

spark连接rabbitmq java代码消费者consumer