r语言爬取豆瓣电影top250
时间: 2023-09-02 12:05:49 浏览: 178
要爬取豆瓣电影Top250,需要使用R语言中的rvest包和httr包。以下是代码示例:
```R
# 导入必要的包
library(rvest)
library(httr)
# 设置请求头,模拟浏览器请求
headers <- c(
`User-Agent` = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
)
# 设置请求参数,每页显示25个电影,共10页
start <- seq(0, 225, 25)
# 爬取电影信息
movie_info <- data.frame() # 存储电影信息的数据框
for (i in start) {
url <- paste0("https://movie.douban.com/top250?start=", i, "&filter=")
page <- GET(url, headers)
content <- content(page, "text", encoding = "utf-8")
html <- read_html(content)
# 获取电影信息
title <- html_nodes(html, ".hd a") %>% html_text()
rating_num <- html_nodes(html, ".rating_num") %>% html_text()
quote <- html_nodes(html, ".inq") %>% html_text()
# 存储电影信息
movie_info <- rbind(movie_info, data.frame(title, rating_num, quote))
}
# 输出结果
print(movie_info)
```
该代码将会爬取豆瓣电影Top250所有电影的标题、评分和简介,并将结果存储在一个数据框中。你可以根据需要对该代码进行修改和优化。
阅读全文