写一份可爬取基于R语言的网络爬虫案例-濒危世界遗产地的代码
时间: 2024-04-02 15:32:41 浏览: 22
好的,以下是一个基于R语言的网络爬虫,用于爬取濒危世界遗产地的信息:
```R
library(rvest)
library(tidyverse)
# 定义目标网站URL
url <- "https://whc.unesco.org/en/list/?danger=1"
# 发送GET请求并解析HTML
page <- read_html(url)
# 爬取表格数据
table_data <- page %>% html_nodes("table") %>% html_table(fill = TRUE)
# 整理数据框
df <- table_data[[1]] %>%
select(Name = `Name (transcribed)`, Country = `State Party`, Year = `Year(s) of inscription`, Danger = `Reasons for inscription`) %>%
filter(!is.na(Name)) %>%
mutate(Danger = ifelse(Danger == "Delisted", "Removed from List", Danger)) %>%
mutate(Danger = ifelse(Danger == "Delisted because of danger", "Removed from List", Danger))
# 输出结果
print(df)
```
这个代码可以爬取联合国教科文组织官网上的濒危世界遗产地数据,并将其整理为一个数据框。你可以将其保存为CSV文件或者进行其他进一步的分析。