使用R语言爬取广西人才网数据分析教程

需积分: 9 109 浏览量更新于2024-09-02 收藏 3KB TXT 举报

"本文介绍如何使用R语言进行网页数据抓取，以广西人才网为例，通过R语言的rvest、xml2、dplyr和stringr包，分别抓取岗位名称、薪水和公司地址等信息，并进行初步的数据处理。" 在大数据时代，获取网络上的有用信息变得越来越重要。R语言作为一种强大的数据分析工具，同时也支持数据抓取功能。本文以R语言为例，结合广西人才网的招聘信息，详细讲解了如何利用R语言进行网页爬虫。首先，我们需要加载四个关键的R包：rvest用于网页抓取，xml2用于读取网页内容，dplyr用于数据分析，而stringr则用于字符串处理。在R环境中，使用`library()`函数加载这些包。接着，创建一个空的数据框`employ_basic_inf`，用于存储后续抓取的数据。然后，使用一个for循环，从第1页到第100页，遍历广西人才网的招聘信息页面。在这个过程中，`read_html()`函数用于读取网页内容，`paste0()`函数用于拼接URL，确保正确编码（UTF-8），并设置`stringsAsFactors=FALSE`避免将文本转换为因子。在数据抓取部分，主要涉及三个步骤： 1. 抓取岗位名称：使用`html_nodes()`选择CSS类名为`.posName`的元素，然后通过`html_text()`提取文字内容。 2. 抓取岗位薪水：同样地，选择CSS类名为`.w3`的元素，提取文字内容。之后，使用`str_replace_all()`和`gsub()`函数去除不需要的字符，如换行符，并将结果转化为数据框。 3. 抓取公司地址：选取CSS类名为`.w4`的元素，提取地址信息，同样进行清洗并转化为数据框。在抓取过程中，使用管道操作符 `%>%` 连接多个函数，使得代码更加清晰易读。每个步骤都涉及到数据的选取、提取和清洗，这是网页抓取过程中的常见操作。最后，这些抓取的数据会被整合到`employ_basic_inf`数据框中，为进一步的数据分析做准备。通过dplyr包提供的函数，可以对这些数据进行过滤、分组、聚合等操作，进行岗位分析、薪资分布分析等，从而得出有价值的洞察。本教程提供了一个简单的R语言爬虫实例，适用于初学者理解和实践网页数据抓取。通过这个例子，读者可以了解到R语言在数据抓取和初步处理方面的强大能力，为后续的数据分析工作打下基础。

## 加载以下四个包
###爬取网页的包 rvest
library(xml2) ### 读取网页的包
library(rvest) ### 爬取网页的包
library(dplyr) ### 数据分析
library(stringr) ### 字符串处理包
employ_basic_inf = data.frame()
### 建立大量数据框便于后继的数据导入
for (i in 1:100) {
###### 导入招聘信息的网址（广西人才网）
web =
read_html(paste0("https://s.gxrc.com/sJob?keyword=%E8%AE%A1%E7%AE%97%E6%9C%BA&schType=1&page=",i),encoding = "UTF-8",stringsAsFactors = FALSE)
## (1) 抓取招聘的岗位名称（posName）
employ_job_name_inf = web %>%
html_nodes(".posName") %>%
html_text() ############### %>% 可理解为管道
# 先连接web，再将（）里的节点的内容传送到 html_text中
## 后继的相关符号也是一样
## (2) 抓取招聘岗位的薪水（w3）
employ_salary_inf = web %>%
html_nodes(".w3") %>%
html_text()
employ_salary_inf =
str_replace_all(employ_salary_inf," ","")
employ_salary_inf<-gsub("\r\n"," ",employ_salary_inf)
employ_salary_inf <- data.frame(employ_salary_inf)
employ_salary_inf=employ_salary_inf[-c(1,2),]
employ_salary_inf = as.character(employ_salary_inf)
## (3) 抓取招聘公司的地址（w4）
employ_address_inf = web %>%

下载后可阅读完整内容，剩余2页未读，立即下载