用python爬取百度迁徙数据
时间: 2023-10-05 15:05:12 浏览: 110
python爬取百度迁徙数据.zip
5星 · 资源好评率100%
要爬取百度迁徙数据,需要使用Python的网络请求库(如Requests)和数据解析库(如BeautifulSoup)。
首先,我们需要确定要爬取的数据,例如城市迁入迁出数据。然后,我们需要找到对应的网页,例如https://qianxi.baidu.com/。
接下来,我们可以使用Requests库发送GET请求获取网页内容,然后使用BeautifulSoup库解析网页内容,提取我们需要的数据。
下面是一个简单的Python程序,可以爬取百度迁徙某个城市的迁入迁出数据,并将数据保存为CSV文件:
```python
import requests
from bs4 import BeautifulSoup
import csv
# 要爬取的城市
city = "北京"
# 发送GET请求获取网页内容
url = f"https://qianxi.baidu.com/{city}/"
response = requests.get(url)
html = response.text
# 使用BeautifulSoup库解析网页内容
soup = BeautifulSoup(html, "html.parser")
# 提取迁入迁出数据
data = []
for item in soup.select(".trend-box ul li"):
year = item.select_one(".title").text.strip()
in_count = item.select_one(".left span").text.strip()
out_count = item.select_one(".right span").text.strip()
data.append([year, in_count, out_count])
# 将数据保存为CSV文件
with open(f"{city}.csv", "w", newline="") as f:
writer = csv.writer(f)
writer.writerow(["年份", "迁入人数", "迁出人数"])
writer.writerows(data)
```
注意,这个程序仅供参考,具体的网页结构和爬取方法可能会因为网页更新而有所改变。在实际爬取时,还需要遵守相关法律法规和网站的使用协议,避免对网站造成过度负担。
阅读全文