Python爬虫实例爬虫实例——scrapy框架爬取拉勾网招聘信息框架爬取拉勾网招聘信息
本文实例为爬取拉勾网上的python相关的职位信息, 这些信息在职位详情页上, 如职位名, 薪资, 公司名等等.
分析思路分析思路
分析查询结果页分析查询结果页
在拉勾网搜索框中搜索’python’关键字, 在浏览器地址栏可以看到搜索结果页的url为: ‘https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=’, 尝试将?后
的参数删除, 发现访问结果相同.
打开Chrome网页调试工具(F12), 分析每条搜索结果(即每个职位)在html中所处的元素定位, 发现每条结果都在<ul class=”item_con_list”>下的li标签中.
因为我们需要每个职位的具体信息因为我们需要每个职位的具体信息, 因此需要获取到每条搜索结果的详情因此需要获取到每条搜索结果的详情url, 即点击搜索结果后进入的详情页的即点击搜索结果后进入的详情页的url.
继续查看li标签中的元素, 找到想要的详情url, 找到后的url为: href=https://www.lagou.com/jobs/6945237.html?show=b6e8e778fcae4c2aa2111ba58f9ebfa0
评论0