为什么从spark on yarn日志里面看不到kafka拉取耗时相关的日志
时间: 2023-02-24 07:12:52 浏览: 198
如果在 Spark on YARN 的日志中看不到 Kafka 拉取耗时的相关日志,可能是因为 Spark 并不记录对 Kafka 数据的拉取时间。您可以尝试在 Kafka 日志中查找相关信息,或者通过在代码中添加打印语句来跟踪拉取时间。此外,您也可以使用 Spark Streaming 的内置指标来监控 Kafka 的消费情况,以了解 Kafka 数据拉取的耗时。
相关问题
Spark on yarn Spark日志会写道yarn日志里吗
是的,Spark在YARN上运行时,Spark日志会写入YARN日志中。因为YARN是Spark作业的资源管理器,所以它能够收集和管理Spark应用程序的日志。这可以帮助您在YARN集群中跟踪和监控Spark作业的状态和行为。
spark on yarn
Spark on YARN是一种常用的Spark运行模式,它可以在Hadoop YARN集群上运行。Spark on YARN支持两种提交任务的方式,即YARN client模式和YARN cluster模式。在YARN client模式下,Spark驱动程序运行在客户端上,而在YARN cluster模式下,Spark驱动程序运行在YARN集群上。
在使用Spark on YARN时,可以使用以下命令提交作业:
```
./spark-submit --master yarn --deploy-mode cluster --class org.apache.spark.examples.SparkPi ../lib/spark-examples-xx.jar 100
```
这个命令将以YARN cluster模式提交一个Spark作业,其中`--master yarn`表示使用YARN作为Spark的主节点,`--deploy-mode cluster`表示以集群模式运行作业,`--class org.apache.spark.examples.SparkPi`指定了作业的入口类,`../lib/spark-examples-xx.jar`是作业的jar包路径,`100`是作业的参数。
另外,还可以使用以下命令以YARN client模式提交作业:
```
./spark-submit --master yarn-client --class org.apache.spark.examples.SparkPi ../lib/spark-examples-xx.jar 100
```
这个命令将以YARN client模式提交一个Spark作业,其中`--master yarn-client`表示使用YARN作为Spark的主节点,并将驱动程序运行在客户端上。
通过以上命令,可以在Spark on YARN上成功提交和运行Spark作业。\[1\]\[2\]\[3\]
#### 引用[.reference_title]
- *1* *2* *3* [Spark on Yarn详解](https://blog.csdn.net/WuBoooo/article/details/109479311)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item]
[ .reference_list ]
阅读全文