r语言使用函数:readLines 与 rvest,尝试爬取豆瓣电影 Top 250,网址:https://movie.douban.com/top250?start=1&filter=,抓取目标: 1,电影名称(中文),每部电影只爬取一个电影名称
时间: 2024-06-08 17:12:21 浏览: 166
好的,我们可以使用 `rvest` 包来进行网页爬取,并使用 `readLines` 函数对网页内容进行读取。首先,我们需要安装和加载 `rvest` 包:
```R
# 安装 rvest 包
install.packages("rvest")
# 加载 rvest 包
library(rvest)
```
接下来,我们可以使用 `readLines` 函数读取网页内容:
```R
# 读取网页内容
url <- "https://movie.douban.com/top250?start=1&filter="
page <- readLines(url, warn = FALSE, encoding = "UTF-8")
```
然后,我们可以使用 `html_nodes` 和 `html_text` 函数从网页内容中提取出电影名称:
```R
# 提取电影名称
movie_name <- page %>%
html_nodes(".hd a span") %>%
html_text()
movie_name <- unique(movie_name) # 去除重复的电影名称
```
最后,我们可以将提取出的电影名称输出:
```R
# 输出电影名称
cat(paste("豆瓣电影 Top 250 中的电影名称:\n", movie_name, sep = "\n"))
```
完整代码如下:
```R
# 安装 rvest 包
install.packages("rvest")
# 加载 rvest 包
library(rvest)
# 读取网页内容
url <- "https://movie.douban.com/top250?start=1&filter="
page <- readLines(url, warn = FALSE, encoding = "UTF-8")
# 提取电影名称
movie_name <- page %>%
html_nodes(".hd a span") %>%
html_text()
movie_name <- unique(movie_name) # 去除重复的电影名称
# 输出电影名称
cat(paste("豆瓣电影 Top 250 中的电影名称:\n", movie_name, sep = "\n"))
```
阅读全文