spark 2.2.0版本 筛选出非布尔类型的数据
时间: 2024-03-06 13:48:38 浏览: 85
可以使用Spark SQL中的`isInstanceOf`函数来判断数据类型,并使用`filter`函数对数据进行筛选。
例如,假设有一个DataFrame对象`df`,其中有一个名为`col`的列,我们希望筛选出其中非布尔类型的数据,可以使用以下代码:
```scala
import org.apache.spark.sql.functions._
val filteredDF = df.filter(!col("col").isInstanceOf[Boolean])
```
这段代码中,`!col("col").isInstanceOf[Boolean]`表示`col`列中非布尔类型的数据,`filter`函数将DataFrame对象`df`中符合该条件的数据筛选出来,存储在`filteredDF`中。
相关问题
下载Spark 2.2.0 安装包
您好,Apache Spark 2.2.0 的中文文档中包含了 Spark Streaming 编程指南。Spark Streaming 是 Spark 的一个扩展模块,用于处理实时数据流。在编程指南中,您可以学习如何使用 Spark Streaming 构建实时数据处理应用程序,包括如何创建 DStream、如何使用各种转换操作和输出操作、如何使用窗口操作和状态操作等。希望这些内容能对您有所帮助。
linux下 spark2.2.0 连接 hive2.3.9显示hive所有数据仓库名称
要在Linux上使用Spark 2.2.0连接Hive 2.3.9并显示所有数据仓库名称,您可以使用以下步骤:
1. 使用以下命令启动Spark Shell:
```
$ spark-shell --master yarn --deploy-mode client --driver-memory 2g --executor-memory 2g --executor-cores 2 --num-executors 2 --packages org.apache.spark:spark-sql_2.11:2.2.0
```
这将启动一个连接到您的YARN集群的Spark Shell,并配置2GB的驱动程序和执行程序内存,2个执行程序内核,2个执行程序和2.2.0版本的Spark SQL包。
2. 在Spark Shell中,使用以下命令来创建一个HiveContext:
```
scala> val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)
```
这将创建一个HiveContext对象,该对象使用Spark Context(`sc`)连接到Hive。
3. 使用以下命令来显示所有数据仓库名称:
```
scala> hiveContext.sql("show databases").show()
```
这将执行一个SQL查询,显示所有数据仓库名称。
请注意,在执行上述命令之前,请确保您的Spark和Hive集成已正确配置,并且您的用户具有足够的权限来连接到Hive并执行SQL查询。
阅读全文