首页r语言使用函数：readLines 与 rvest，尝试爬取豆瓣电影 Top 250，网址：https://movie.douban.com/top250?start=1&filter=，抓取目标： 1，电影名称(中文)，每部电影只爬取一个电影名称

r语言使用函数：readLines 与 rvest，尝试爬取豆瓣电影 Top 250，网址：https://movie.douban.com/top250?start=1&filter=，抓取目标： 1，电影名称(中文)，每部电影只爬取一个电影名称

时间: 2024-06-08 17:12:21 浏览: 166

好的，我们可以使用 `rvest` 包来进行网页爬取，并使用 `readLines` 函数对网页内容进行读取。首先，我们需要安装和加载 `rvest` 包： ```R # 安装 rvest 包 install.packages("rvest") # 加载 rvest 包 library(rvest) ``` 接下来，我们可以使用 `readLines` 函数读取网页内容： ```R # 读取网页内容 url <- "https://movie.douban.com/top250?start=1&filter=" page <- readLines(url, warn = FALSE, encoding = "UTF-8") ``` 然后，我们可以使用 `html_nodes` 和 `html_text` 函数从网页内容中提取出电影名称： ```R # 提取电影名称 movie_name <- page %>% html_nodes(".hd a span") %>% html_text() movie_name <- unique(movie_name) # 去除重复的电影名称 ``` 最后，我们可以将提取出的电影名称输出： ```R # 输出电影名称 cat(paste("豆瓣电影 Top 250 中的电影名称：\n", movie_name, sep = "\n")) ``` 完整代码如下： ```R # 安装 rvest 包 install.packages("rvest") # 加载 rvest 包 library(rvest) # 读取网页内容 url <- "https://movie.douban.com/top250?start=1&filter=" page <- readLines(url, warn = FALSE, encoding = "UTF-8") # 提取电影名称 movie_name <- page %>% html_nodes(".hd a span") %>% html_text() movie_name <- unique(movie_name) # 去除重复的电影名称 # 输出电影名称 cat(paste("豆瓣电影 Top 250 中的电影名称：\n", movie_name, sep = "\n")) ```

阅读全文