没有合适的资源?快使用搜索试试~ 我知道了~
首页Python爬虫入门:如何爬取招聘网站并进行分析
Python爬虫入门:如何爬取招聘网站并进行分析
需积分: 50 5.4k 浏览量
更新于2023-05-28
评论 30
收藏 1021KB PDF 举报
python爬虫实操干货,一分钟了解全国行业工资水平,适合新手,数据抓取、清洗、结果分析一步到位,快快行动起来
资源详情
资源评论
资源推荐

0 前言
工作之余,时常会想能做点什么有意思的玩意。互联网时代,到处都是互联网思维,
大数据、深度学习、人工智能,这些新词刮起一股旋风。所以笔者也赶赶潮流,买
了本 Python 爬虫书籍研读起来。
网络爬虫,顾名思义就是将互联网上的内容按照自己编订的规则抓取保存下来。理
论上来讲,浏览器上只要眼睛能看到的网页内容都可以抓起保存下来,当然很多网
站都有自己的反爬虫技术,不过反爬虫技术的存在只是增加网络爬虫的成本而已,
所以爬取些有更有价值的内容,也就对得起技术得投入。
1 案例选取
人有 1/3 的时间在工作,有一个开心的工作,那么 1/3 的时间都会很开心。所以我
选取招聘网站来作为我第一个学习的案例。
前段时间和一个老同学聊天,发现他是在从事交互设计(我一点也不了解这是什么
样的岗位),于是乎,我就想爬取下前程无忧网(招聘网_人才网_找工作_求职_上
前程无忧)上的交互设计的岗位需求:

2 实现过程
我这里使用 scrapy 框架来进行爬取。
2.1 程序结构
C:\Users\hyperstrong\spiderjob_jiaohusheji
│scrapy.cfg
│
└─spiderjob
│ items.py
│ pipelines.py
│ settings.py
│ __init__.py

│ middlewares.py
├─spiders
│ jobSpider.py
│ __init__.py
其中:
items.py 是从网页抽取的项目
jobSpider.py 是主程序
2.2 链接的构造
用浏览器打开前程无忧网站 招聘网_人才网_找工作_求职_上前程无忧,在职务搜索
里输入“交互设计师”,搜索出页面后,观察网址链接:
【交互设计师招聘】前程无忧手机网_触屏版
http://search.51job.com/jobsearch/search_result.php?fromJs=1&k
eyword=%E4%BA%A4%E4%BA%92%E8%AE%BE%E8%AE%A1%E5%B8%88&keywordty
pe=2&lang=c&stype=2&postchannel=0000&fromType=1&confirmdate=9
网址链接中并没有页码,于是选择第二页,观察链接:
剩余14页未读,继续阅读

















安全验证
文档复制为VIP权益,开通VIP直接复制

评论0