python爬虫前程无忧网站系统可视化代码
时间: 2023-06-20 14:06:03 浏览: 197
51job爬虫源码
这里提供一个基于Python的前程无忧网站爬虫系统的可视化代码框架,参考代码如下:
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
import matplotlib.pyplot as plt
def get_data(page):
url = 'https://search.51job.com/list/000000,000000,0000,00,9,99,Python%2B%E7%88%AC%E8%99%AB,2,'+str(page)+'.html'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
html = requests.get(url, headers=headers).text
soup = BeautifulSoup(html, 'html.parser')
infos = soup.select('#resultList > div > p > span.t2 > a')
job_list = []
for info in infos:
job_list.append(info.text)
return job_list
def main():
job_lists = []
for i in range(1, 11):
job_lists += get_data(i)
df = pd.DataFrame(job_lists, columns=['Job Title'])
df_count = df.groupby(['Job Title']).size().reset_index(name='Count')
df_count = df_count.sort_values(['Count'], ascending=False).reset_index(drop=True)
top_10_jobs = df_count.head(10)
plt.figure(figsize=(10, 5))
plt.bar(top_10_jobs['Job Title'], top_10_jobs['Count'])
plt.xticks(rotation=45)
plt.xlabel('Job Title')
plt.ylabel('Count')
plt.title('Top 10 Python Jobs')
plt.show()
if __name__ == '__main__':
main()
```
这个代码框架是一个简单的爬虫系统,可以从前程无忧网站上爬取Python爬虫相关的工作信息,并且将数据可视化展示在一个柱状图中。
代码逻辑如下:
1. 从前程无忧网站上爬取Python爬虫相关的工作信息;
2. 将爬取到的工作信息存储在一个DataFrame中;
3. 统计每个工作的出现次数;
4. 对工作出现次数进行排序,得到前10个最热门的工作;
5. 将前10个最热门的工作可视化展示在一个柱状图中。
需要注意的是,前程无忧网站的数据获取需要一定的技巧和经验,这里仅提供一个简单的代码框架参考。如果需要更复杂的数据获取和处理,需要根据具体的需求进行开发和调整。
阅读全文