python中简述如何使用xpath进行爬虫
时间: 2023-05-27 21:04:06 浏览: 137
使用xpath进行爬虫的步骤如下:
1. 安装相关库
需要安装lxml库来解析HTML/XML文档,通常情况下lxml库的效率比python自带的解析库要高。
2. 获取页面html
使用requests库获取页面html,如:
```python
import requests
response = requests.get('http://example.com')
html = response.content
```
3. 解析html
使用lxml库中的etree模块将html解析成树形结构,然后使用xpath表达式进行提取。
```python
from lxml import etree
tree = etree.HTML(html)
result = tree.xpath("//div[@class='example']/p/text()")
```
上面的代码实现了对class为example的div节点下的所有p节点的文本内容提取。
4. 处理结果
将提取的结果进行处理,例如保存到文件或数据库中。
完整代码:
```python
import requests
from lxml import etree
response = requests.get('http://example.com')
html = response.content
tree = etree.HTML(html)
result = tree.xpath("//div[@class='example']/p/text()")
for r in result:
print(r)
```
阅读全文