from future import print_function import sys from pyspark import SparkContext from pyspark.streaming import StreamingContext from pyspark.streaming.flume import FlumeUtils import pyspark if name == "main": if len(sys.argv) != 3: print("Usage: flume_wordcount.py <hostname> <port>", file=sys.stderr) exit(-1) sc = SparkContext(appName="FlumeEventCount") ssc = StreamingContext(sc, 2) hostname= sys.argv[1] port = int(sys.argv[2]) stream = FlumeUtils.createStream(ssc, hostname, port,pyspark.StorageLevel.MEMORY_AND_DISK_SER_2) stream.count().map(lambda cnt : "Recieve " + str(cnt) +" Flume events!!!!").pprint() ssc.start() ssc.awaitTermination()

时间: 2024-03-29 07:42:04 浏览: 158

这是一个使用 PySpark Streaming 监听 Flume 事件的示例代码，具体解释如下： - `from __future__ import print_function`：导入 print 函数，因为在 Python 2.x 中 print 是关键字，而在 Python 3.x 中是函数。 - `import sys`：导入 sys 模块，用于获取命令行参数。 - `from pyspark import SparkContext`：导入 SparkContext 类，用于创建 SparkContext 对象。 - `from pyspark.streaming import StreamingContext`：导入 StreamingContext 类，用于创建 StreamingContext 对象。 - `from pyspark.streaming.flume import FlumeUtils`：导入 FlumeUtils 类，用于创建 Flume 事件流。 - `import pyspark`：导入 pyspark 模块，用于设置存储级别。 - `if __name__ == "__main__":`：如果当前脚本为主函数，则执行下面的代码。 - `if len(sys.argv) != 3:`：如果命令行参数不等于 3，则输出错误信息并退出。 - `sc = SparkContext(appName="FlumeEventCount")`：创建 SparkContext 对象，设置应用程序名称为 "FlumeEventCount"。 - `ssc = StreamingContext(sc, 2)`：创建 StreamingContext 对象，设置批处理间隔为 2 秒。 - `hostname= sys.argv[1]`：获取命令行参数中的主机名。 - `port = int(sys.argv[2])`：获取命令行参数中的端口号，并将其转换为整数。 - `stream = FlumeUtils.createStream(ssc, hostname, port,pyspark.StorageLevel.MEMORY_AND_DISK_SER_2)`：创建 Flume 事件流，使用 MEMORY_AND_DISK_SER_2 存储级别。 - `stream.count().map(lambda cnt : "Recieve " + str(cnt) +" Flume events!!!!").pprint()`：对事件流进行计数，并将计数结果转换为字符串输出。 - `ssc.start()`：启动 StreamingContext。 - `ssc.awaitTermination()`：等待 StreamingContext 结束。

阅读全文

相关推荐

Spark-Streaming编程指南.docx

spark_streaming

03_尚硅谷大数据技术之SparkStreaming1

【SparkStreaming篇01】SparkStreaming之Dstream入门1

Spark Streaming解析

SparkStreaming原理介绍

Spark Streaming和Flume的数据管道构建

PySpark中的流式数据处理

PyCharm大数据开发宝典：Pyspark与Hadoop无缝集成

spark streaming接收flume数据代码实现

[Spark]Spark Streaming 指南二 初始化StreamingContext

spark streaming 源码

spark streaming rdd编程

spark streaming基本操作

postgresql-16.6.tar.gz

机械设计传感器真空灌胶机_step非常好的设计图纸100%好用.zip

HRNet的onnx格式转rknn格式的工程

大家在看

基于自适应权重稀疏典范相关分析的人脸表情识别

香港地铁的安全风险管理 (2007年)

彩虹聚合DNS管理系统V1.3+搭建教程

一种新型三维条纹图像滤波算法 图像滤波算法.pdf

节的一些关于非传统-华为hcnp-数通题库2020/1/16（h12-221）v2.5

最新推荐

postgresql-16.6.tar.gz

机械设计传感器真空灌胶机_step非常好的设计图纸100%好用.zip

HRNet的onnx格式转rknn格式的工程

【岗位说明】物资设备部部门职责.doc

GitHub Classroom 创建的C语言双链表实验项目解析

管理建模和仿真的文件

【三态RS锁存器CD4043的秘密】：从入门到精通的电路设计指南（附实际应用案例）

霍夫曼四元编码matlab

MATLAB在AWS上的自动化部署与运行指南

"互动学习：行动中的多样性与论文攻读经历"

[Spark]Spark Streaming 指南二初始化StreamingContext

一种新型三维条纹图像滤波算法图像滤波算法.pdf