搭建maven+spark+scala项目
时间: 2023-06-20 10:09:57 浏览: 186
maven项目搭建
搭建 Maven + Spark + Scala 项目,可以按照以下步骤进行:
1. 安装 Maven
首先需要安装 Maven,可以从 Maven 官网下载对应的安装包进行安装。
2. 创建 Maven 项目
打开命令行或者终端,进入项目存储的目录,执行以下命令创建 Maven 项目:
```
mvn archetype:generate -DgroupId=com.example -DartifactId=my-app -DarchetypeArtifactId=maven-archetype-quickstart -DinteractiveMode=false
```
其中,`com.example` 是项目的包名,`my-app` 是项目名称,`maven-archetype-quickstart` 是 Maven 的一个基础模板。
创建完毕后,进入项目目录,可以看到项目结构如下:
```
my-app
|-- pom.xml
`-- src
|-- main
| `-- java
| `-- com
| `-- example
| `-- App.java
`-- test
`-- java
`-- com
`-- example
`-- AppTest.java
```
3. 添加 Spark 和 Scala 依赖
在 `pom.xml` 文件中添加 Spark 和 Scala 的依赖:
```xml
<dependencies>
<!-- Spark -->
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.11</artifactId>
<version>2.4.5</version>
</dependency>
<!-- Scala -->
<dependency>
<groupId>org.scala-lang</groupId>
<artifactId>scala-library</artifactId>
<version>2.11.12</version>
</dependency>
</dependencies>
```
其中,`spark-core_2.11` 和 `scala-library` 的版本可以根据需求进行修改。
4. 编写 Scala 代码
在 `src/main/scala` 目录下创建 Scala 文件,编写 Spark 代码。
例如,创建一个 `WordCount.scala` 文件,编写如下代码:
```scala
import org.apache.spark.{SparkConf, SparkContext}
object WordCount {
def main(args: Array[String]): Unit = {
val conf = new SparkConf().setAppName("WordCount").setMaster("local")
val sc = new SparkContext(conf)
val textFile = sc.textFile("input.txt")
val wordCount = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b)
wordCount.saveAsTextFile("output")
sc.stop()
}
}
```
该代码可以实现读取文件 `input.txt`,统计每个单词出现的次数,并将结果输出到文件 `output` 中。
5. 打包和运行项目
在命令行或者终端中,进入项目目录,执行以下命令进行打包:
```
mvn package
```
打包成功后,在项目目录下的 `target` 目录中会生成一个 `my-app-1.0-SNAPSHOT.jar` 文件。
然后就可以使用以下命令来运行项目:
```
spark-submit --class com.example.WordCount my-app-1.0-SNAPSHOT.jar
```
其中,`com.example.WordCount` 是 `WordCount.scala` 文件中的类路径。
阅读全文