pyhton 爬取广东省统计年鉴2014年到2015年各市外商直接投资数据
时间: 2023-06-20 12:06:18 浏览: 129
要爬取广东省统计年鉴2014年到2015年各市外商直接投资数据,可以按照以下步骤进行:
1. 打开广东省统计局官网(http://www.gdstats.gov.cn/),找到统计年鉴栏目,并进入2014年和2015年的统计年鉴页面。
2. 在页面上找到相关的外商直接投资数据,观察其URL链接和HTML结构,以确定需要爬取的数据位置和方法。
3. 使用Python中的requests库向对应的URL链接发送HTTP请求,并使用BeautifulSoup库对返回的HTML文本进行解析和提取目标数据。
4. 将提取的数据保存到本地文件或数据库中,以备后续分析和使用。
下面是一个简单的Python代码示例,供参考:
```python
import requests
from bs4 import BeautifulSoup
# 设置请求头部信息
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}
# 待爬取的年份列表
years = ['2014', '2015']
# 待爬取的城市列表
cities = ['广州市', '深圳市', '珠海市', '汕头市', '韶关市', '佛山市', '江门市', '湛江市',
'茂名市', '肇庆市', '惠州市', '梅州市', '汕尾市', '河源市', '阳江市', '清远市', '东莞市', '中山市', '潮州市', '揭阳市', '云浮市']
# 遍历年份和城市,爬取数据
for year in years:
for city in cities:
# 构造请求URL
url = 'http://data.gdstat.gov.cn/tjnj/2014/html/TJNJ51/{}.htm#{}'.format(year, city)
# 发送HTTP请求
response = requests.get(url, headers=headers)
# 解析HTML文本
soup = BeautifulSoup(response.text, 'html.parser')
# 查找目标数据
data = soup.select('table tr:nth-of-type(3) td:nth-of-type(2)')[0].text
# 输出数据
print('{}年{}外商直接投资数据为:{}'.format(year, city, data))
```
需要注意的是,该示例只是一个简单的爬虫代码,实际应用中还需要考虑数据格式化、异常处理、反爬虫机制等问题。建议在使用时结合具体情况进行修改和完善。
阅读全文