基于R语言抓取豆瓣电影Top250
时间: 2023-11-14 07:05:55 浏览: 121
要抓取豆瓣电影Top250,需要使用R语言中的网络爬虫技术。以下是一个基本的步骤:
1. 安装必要的R包,如`rvest`和`httr`。
2. 使用`httr`包访问豆瓣电影Top250页面,获取HTML代码。
3. 使用`rvest`包解析HTML代码,提取需要的电影信息,如电影名称、导演、评分等。
4. 将提取的电影信息存储到数据框中,可以使用`data.frame`函数。
5. 可以使用`write.csv`函数将数据框保存为CSV文件,以便后续分析。
以下是一个代码示例:
```R
# 安装必要的R包
install.packages("rvest")
install.packages("httr")
# 加载必要的包
library(rvest)
library(httr)
# 访问豆瓣电影Top250页面
url <- "https://movie.douban.com/top250"
response <- GET(url)
html_content <- content(response, "text")
# 解析HTML代码,提取电影信息
movies <- html_nodes(html_content, ".item")
movie_names <- html_text(html_nodes(movies, ".title"))
movie_directors <- html_text(html_nodes(movies, "p:nth-child(1)"))
movie_ratings <- html_text(html_nodes(movies, ".rating_num"))
# 存储电影信息
df <- data.frame(movie_names, movie_directors, movie_ratings)
# 保存为CSV文件
write.csv(df, "douban_top250.csv", row.names = FALSE)
```
在代码中,我们使用`html_nodes`函数定位HTML节点,使用`html_text`函数获取节点文本内容。我们还使用`data.frame`函数将提取的电影信息存储到数据框中,并使用`write.csv`函数将数据框保存为CSV文件。
阅读全文