(二)招聘数据分析 1、数据准备(可从网站爬取数据) 读取拉勾网的数据分析职位数据 lagou_data.csv,如下表,查看数据基本信息。
时间: 2023-06-13 12:07:13 浏览: 105
很抱歉,我是一个语言模型,无法执行爬取数据等操作。但是,我可以提供一些读取文件的代码示例,您可以参考一下:
```python
import pandas as pd
# 读取csv文件
df = pd.read_csv("lagou_data.csv", encoding="utf-8")
# 查看数据基本信息
print(df.info())
# 查看前5行数据
print(df.head())
```
您需要将文件路径替换成您实际存储数据的路径。
相关问题
WebMagic爬取拉勾网招聘数据
WebMagic是Java语言编写的一款爬虫框架,它基于Jsoup解析器实现,可以轻松地爬取各种网站上的数据。下面是使用WebMagic爬取拉勾网招聘数据的方法:
1. 首先,需要导入WebMagic相关的依赖包,可以在pom.xml文件中添加以下代码:
```
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-core</artifactId>
<version>0.7.3</version>
</dependency>
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-extension</artifactId>
<version>0.7.3</version>
</dependency>
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-selenium</artifactId>
<version>0.7.3</version>
</dependency>
<dependency>
<groupId>org.seleniumhq.selenium</groupId>
<artifactId>selenium-firefox-driver</artifactId>
<version>2.53.1</version>
</dependency>
```
2. 创建一个Java类,用于定义需要爬取的数据结构。例如,我们可以定义一个Job类,用于存储招聘信息:
```
public class Job {
private String name; //职位名称
private String salary; //薪资范围
private String company; //公司名称
private String location; //工作地点
private String experience; //工作经验要求
private String education; //学历要求
private String label; //职位标签
//省略setter和getter方法
}
```
3. 创建一个实现PageProcessor接口的Java类,用于定义爬虫的逻辑。例如,我们可以定义一个LaGouProcessor类,用于爬取拉勾网的招聘信息:
```
public class LaGouProcessor implements PageProcessor {
private Site site = Site.me()
.setRetryTimes(3) //重试次数
.setSleepTime(1000) //访问间隔
.setUserAgent(UserAgentUtil.getRandomUserAgent()); //随机User-Agent
@Override
public void process(Page page) {
List<Job> jobList = new ArrayList<>();
List<String> jobUrls = page.getHtml().links().regex("https://www.lagou.com/jobs/\\d+.html").all();
for (String jobUrl : jobUrls) {
page.addTargetRequest(jobUrl); //添加详情页链接到抓取队列
}
if (page.getUrl().regex("https://www.lagou.com/jobs/\\d+.html").match()) { //详情页
Job job = new Job();
job.setName(page.getHtml().xpath("//div[@class='job-name']/span/text()").get());
job.setSalary(page.getHtml().xpath("//dd[@class='job_request']/h3/span[1]/text()").get());
job.setCompany(page.getHtml().xpath("//div[@class='company']/text()").get());
job.setLocation(page.getHtml().xpath("//dd[@class='job_request']/p/span[2]/text()").get());
job.setExperience(page.getHtml().xpath("//dd[@class='job_request']/p/span[3]/text()").get());
job.setEducation(page.getHtml().xpath("//dd[@class='job_request']/p/span[4]/text()").get());
job.setLabel(StringUtils.join(page.getHtml().xpath("//dd[@class='job_request']/ul/li/span/text()")
.all(), ",")); //多个标签以逗号分隔
jobList.add(job);
}
page.putField("jobList", jobList);
}
@Override
public Site getSite() {
return site;
}
}
```
4. 在main方法中,创建一个Spider对象,并设置需要爬取的初始链接、定义的PageProcessor对象和线程数等参数。例如,我们可以设置以下参数:
```
public static void main(String[] args) {
Spider.create(new LaGouProcessor())
.addUrl("https://www.lagou.com/zhaopin/Java/?labelWords=label")
.thread(5)
.run();
}
```
5. 运行程序,即可爬取拉勾网的招聘信息。可以通过page.putField方法将爬取到的数据存储到Map中,然后可以将Map写入文件或者数据库中。
```
public static void main(String[] args) {
Spider.create(new LaGouProcessor())
.addUrl("https://www.lagou.com/zhaopin/Java/?labelWords=label")
.thread(5)
.run();
}
```
java爬虫爬取拉勾网招聘数据
由于涉及到网站爬取,可能会侵犯拉勾网的相关规定和法律法规。因此,我们强烈建议您遵守相关规定,合法合规地进行爬取。
以下是简单的示例代码,用于爬取拉勾网上的招聘信息:
```java
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
public class LaGouSpider {
public static void main(String[] args) {
String url = "https://www.lagou.com/zhaopin/Java/";
try {
Document doc = Jsoup.connect(url).get();
Elements jobList = doc.select(".job-list li");
for (Element job : jobList) {
String jobName = job.select(".position_link h3").text();
String company = job.select(".company_name a").text();
String salary = job.select(".money").text();
System.out.println("职位名称:" + jobName);
System.out.println("公司名称:" + company);
System.out.println("薪资待遇:" + salary);
System.out.println("------------------------");
}
} catch (IOException e) {
e.printStackTrace();
}
}
}
```
这个示例代码使用了Jsoup库,通过连接拉勾网的Java职位页面,获取页面上的招聘信息。具体步骤如下:
1. 使用Jsoup.connect()方法连接要爬取的页面。
2. 使用doc.select()方法选择页面上需要提取的元素。
3. 遍历选择的元素,使用element.select()方法获取元素内的具体信息。
需要注意的是,由于拉勾网的页面结构可能会随时改变,所以代码需要根据实际情况进行调整。此外,如果您要进行大规模的爬取,需要加入相关的限制和措施,以避免对网站造成过大的负担和影响。
相关推荐
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)