Python+xpath爬取国家统计局数据
时间: 2024-05-18 21:09:00 浏览: 174
统计局数据爬取.py
Python 是一种非常流行的编程语言,它可以用于数据处理、数据分析、机器学习等多个领域。XPath 是一种用于在 XML 和 HTML 文档中定位元素的语言。通过结合使用 Python 和 XPath,我们可以实现网页数据的爬取和提取。
以下是一个简单的 Python+xpath 爬取国家统计局数据的示例:
```python
import requests
from lxml import etree
url = "http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2019/index.html"
response = requests.get(url)
html = response.content.decode('gbk')
selector = etree.HTML(html)
provinces = selector.xpath('//tr[@class="provincetr"]/td/a')
for province in provinces:
province_name = province.text
province_code = province.get('href').split('.')
print(province_name, province_code)
```
这段代码用 requests 库获取了国家统计局数据的网页内容,然后使用 lxml 库中的 etree 模块将网页内容解析成了一个树形结构。接着,我们使用 XPath 语法来定位需要提取的信息,并将结果打印输出。
上述代码中,我们通过 XPath 表达式 `//tr[@class="provincetr"]/td/a` 来选取所有 class 属性为 provincetr 的 tr 标签下的 a 标签。然后,我们可以通过 a 标签的 text 属性获取省份名称,通过 a 标签的 href 属性获取省份代码。最后,我们将省份名称和代码打印输出。
阅读全文