首页用spark对链家二手房csv进行数据分析或统计的代码

用spark对链家二手房csv进行数据分析或统计的代码

时间: 2023-08-11 22:08:27 浏览: 42

以下是用Spark对链家二手房CSV进行数据分析或统计的示例代码： ``` import org.apache.spark.sql.SparkSession object LianjiaDataAnalysis { def main(args: Array[String]) { // 初始化SparkSession val spark = SparkSession.builder() .appName("LianjiaDataAnalysis") .master("local[*]") // 本地运行模式 .getOrCreate() // 读取CSV文件 val df = spark.read.format("csv") .option("header", "true") .load("path/to/lianjia.csv") // 输出DataFrame的schema df.printSchema() // 统计数据 // 1. 获取总记录数 val count = df.count() println(s"总记录数：$count") // 2. 获取最高房价 val maxPrice = df.selectExpr("max(price)").first().get(0) println(s"最高房价：$maxPrice") // 3. 获取最低房价 val minPrice = df.selectExpr("min(price)").first().get(0) println(s"最低房价：$minPrice") // 4. 获取平均房价 val avgPrice = df.selectExpr("avg(price)").first().get(0) println(s"平均房价：$avgPrice") // 5. 获取房屋面积的分布情况 df.selectExpr("floor_area").groupBy("floor_area").count().show() // 关闭SparkSession spark.stop() } } ``` 该代码使用SparkSession读取CSV文件，并进行了一些简单的统计，比如获取总记录数、最高房价、最低房价、平均房价等。同时，还展示了如何获取房屋面积的分布情况。你可以根据具体需求进行修改和扩展。

最新推荐

大数据技术实践——Spark词频统计

利用Spark组件完成文本词频统计的任务，目标是学习Scala语言，理解Spark编程思想，基于Spark 思想，使用IDEA编写SparkWordCount程序，并能够在spark-shell中执行代码和分析执行过程。

zigbee-cluster-library-specification

用spark对链家二手房csv进行数据分析或统计的代码

相关推荐

基于spark的心脏病信息大数据分析源代码+数据zip

基于spark离线统计移动端数据分析+源代码+文档说明

基于Java+spark的离线统计移动端数据分析源码.zip

spark二手房统计分析

请给我一段gcp中使用spark对数据进行分析的代码

使用spark对爬取的数据进行数据分析

用spark将电影数据分析进行统计分析导入到mysql

基于spark的二手房数据分析

使用spark对音乐数据进行分析

如何利用 Spark ML 对农产品数据进行分析预测,请给出python代码

spark二手车数据分析

spark除了对数据进行词频统计还能对数据进行怎样的处理

使用spark进行数据分析

用spark对csv文件里的数据清洗，然后可视化

基于spark对心脏病进行分析和预测的代码

Linux spark对hdfs的数据进行词频分析

jupyter notebook使用spark库进行数据分析

用scala编写，对餐饮数据进行分析，统计销售额

基于Spark音乐数据分析方式和代码

最新推荐

大数据技术实践——Spark词频统计

zigbee-cluster-library-specification

管理建模和仿真的文件

实现实时数据湖架构：Kafka与Hive集成

2． 通过python绘制y=e-xsin(2πx)图像

JSBSim Reference Manual

"互动学习：行动中的多样性与论文攻读经历"

实现实时监控告警系统：Kafka与Grafana整合

导入numpy库，创建两个包含9个随机数的3*3的矩阵，将两个矩阵分别打印出来，计算两个数组的点积并打印出来。（random.randn()、dot（）函数）

c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf

2．通过python绘制y=e-xsin(2πx)图像