首页Python+xpath爬取国家统计局数据

Python+xpath爬取国家统计局数据

时间: 2024-05-18 17:09:00 浏览: 181

Python 是一种非常流行的编程语言，它可以用于数据处理、数据分析、机器学习等多个领域。XPath 是一种用于在 XML 和 HTML 文档中定位元素的语言。通过结合使用 Python 和 XPath，我们可以实现网页数据的爬取和提取。以下是一个简单的 Python+xpath 爬取国家统计局数据的示例： ```python import requests from lxml import etree url = "http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2019/index.html" response = requests.get(url) html = response.content.decode('gbk') selector = etree.HTML(html) provinces = selector.xpath('//tr[@class="provincetr"]/td/a') for province in provinces: province_name = province.text province_code = province.get('href').split('.') print(province_name, province_code) ``` 这段代码用 requests 库获取了国家统计局数据的网页内容，然后使用 lxml 库中的 etree 模块将网页内容解析成了一个树形结构。接着，我们使用 XPath 语法来定位需要提取的信息，并将结果打印输出。上述代码中，我们通过 XPath 表达式 `//tr[@class="provincetr"]/td/a` 来选取所有 class 属性为 provincetr 的 tr 标签下的 a 标签。然后，我们可以通过 a 标签的 text 属性获取省份名称，通过 a 标签的 href 属性获取省份代码。最后，我们将省份名称和代码打印输出。

阅读全文