使用spark 编写一个爬取https://www.xiangha.com/caipu/95247360.html正文内容的代码程序
时间: 2023-08-22 19:08:40 浏览: 109
以下是使用Spark编写的爬取https://www.xiangha.com/caipu/95247360.html正文内容的代码程序:
```
import org.apache.spark.{SparkConf, SparkContext}
import org.jsoup.Jsoup
import org.jsoup.nodes.Document
object XianghaCrawler {
def main(args: Array[String]): Unit = {
val conf = new SparkConf().setAppName("XianghaCrawler").setMaster("local[*]")
val sc = new SparkContext(conf)
val url = "https://www.xiangha.com/caipu/95247360.html"
val content = sc.parallelize(Seq(url)).map(url => {
val doc: Document = Jsoup.connect(url).get()
val title = doc.select("h1.title").text()
val ingredients = doc.select("div.ings").text()
val steps = doc.select("div.steps > ol > li").map(_.text()).mkString("\n")
s"$title\n$ingredients\n$steps"
})
content.saveAsTextFile("xiangha_recipe.txt")
sc.stop()
}
}
```
代码中使用Jsoup解析HTML文档,并使用Spark的并行化处理方式,将解析后的正文内容保存到文件中。可以根据需要修改保存文件的路径。
阅读全文