在 pyspark 中读取 HDFS 系统文件“/user/hadoop/ipaddress.txt",然后, 统计出文件的行数。
时间: 2024-09-11 15:05:52 浏览: 68
HDFS上传文件报错org.apache.hadoop.fs.ChecksumException: Checksum error: file:/hyk/data/hyk.txt
5星 · 资源好评率100%
在PySpark中,读取HDFS系统文件并统计行数的步骤如下:
```python
from pyspark.sql import SparkSession
# 初始化SparkSession
spark = SparkSession.builder.appName("HDFSLineCount").getOrCreate()
# 使用SparkContext读取HDFS文件
hdfs_file_path = "/user/hadoop/ipaddress.txt"
lines_df = spark.read.text(hdfs_file_path)
# 显示数据帧包含几行
line_count = lines_df.count()
# 输出行数
print(f"The file {hdfs_file_path} has {line_count} lines.")
# 关闭SparkSession
spark.stop()
```
在这段代码中,我们首先创建了一个SparkSession,然后使用`text()`函数读取HDFS文件的内容并将其转换为DataFrame。DataFrame的`count()`方法返回的是行的数量,即文件中的行数。
阅读全文