spark sql——3. dataframe及常用操作
时间: 2023-04-21 13:01:33 浏览: 196
spark的源码包.zip
DataFrame是Spark SQL中最常用的数据结构,它是一个分布式的数据集合,可以看作是由一组有序的列组成的表格。DataFrame支持多种数据源,包括Hive表、文本文件、JSON、Parquet等。DataFrame的常用操作包括选择、过滤、聚合、排序等,可以使用Spark SQL提供的API或者SQL语句进行操作。其中,选择操作可以选择DataFrame中的一部分列,过滤操作可以根据条件过滤出符合条件的行,聚合操作可以对数据进行统计分析,排序操作可以按照指定的列进行排序。除此之外,DataFrame还支持join、union等操作,可以将多个DataFrame进行合并。
阅读全文