python 读取hdfs文件夹中的全部文件并打印出来
时间: 2023-08-06 19:02:54 浏览: 216
python访问hdfs的操作
你可以使用 `pyarrow` 库来读取 HDFS 文件夹中的全部文件,并打印出它们的内容。以下是一个示例代码:
```python
import pyarrow.hdfs as hdfs
# 连接 HDFS
hdfs_host = 'hdfs://<HDFS_HOST>:<HDFS_PORT>'
fs = hdfs.connect(hdfs_host)
# 列出文件夹中的所有文件
file_list = fs.ls('<HDFS_FOLDER>')
# 逐个读取文件并打印
for file in file_list:
with fs.open(file) as f:
print(f.read().decode())
```
请将 `<HDFS_HOST>` 替换为你的 HDFS 主机名或 IP 地址,将 `<HDFS_PORT>` 替换为 HDFS 端口号,默认为 `9000`。将 `<HDFS_FOLDER>` 替换为你要读取的 HDFS 文件夹路径。
阅读全文