spark2.0与spark3.0中的yarn模式差异
时间: 2024-04-02 10:30:22 浏览: 68
在Spark 2.0和Spark 3.0中,Yarn模式的一些差异如下所示[^1]:
1. Spark 2.0中的Yarn模式有两种选择:yarn-client和yarn-cluster。而在Spark 3.0中,yarn-client模式已被弃用,只保留了yarn-cluster模式。
2. 在Spark 2.0中,yarn-client模式是将Spark客户端直接连接到Yarn,不需要额外构建Spark集群。而在Spark 3.0中,只有yarn-cluster模式可用,需要通过提交Spark应用程序到Yarn集群来运行。
3. 在Spark 2.0中,yarn-client模式适用于交互式工作负载,因为它允许Spark应用程序直接与驱动程序进行交互。而在Spark 3.0中,由于只有yarn-cluster模式可用,交互式工作负载需要通过Spark的交互式会话(如Spark Shell或Spark SQL)来实现。
4. 在Spark 3.0中引入了动态分区修剪(Dynamic Partition Pruning)的新特性[^2]。这个特性可以在执行查询时根据查询条件动态地剪枝分区,从而提高查询性能。
相关问题
spark3.0 on yarn /bin/bash: /bin/java: 没有那个文件或目录
这个错误提示意味着系统无法找到 Java 的可执行文件。你需要先确认系统中是否已经安装了 Java,并且配置了正确的环境变量。你可以通过以下命令来检查 Java 是否已经安装:
```
java -version
```
如果 Java 已经安装,系统会输出 Java 版本信息。如果没有安装,你需要先安装 Java,然后将其添加到系统的 PATH 环境变量中。
另外,如果你在执行 Spark 命令时使用了绝对路径,可能需要修改为相对路径以避免这个问题。
阅读全文