怎么用xpath爬取网页
时间: 2023-08-14 11:04:20 浏览: 87
使用XPath爬取网页的步骤如下:
1. 导入XPath库
在Python中,我们可以使用`lxml`库来解析HTML文档并使用XPath进行数据提取。因此,我们需要先导入`lxml`库。
```python
from lxml import etree
```
2. 获取HTML文档
使用Python中的`requests`库,我们可以获取一个网页的HTML文档。
```python
import requests
url = "http://www.example.com"
response = requests.get(url)
html = response.text
```
3. 解析HTML文档
使用`lxml`库的`etree.HTML()`方法将HTML文档转换为可被XPath解析的对象。
```python
selector = etree.HTML(html)
```
4. 使用XPath进行数据提取
使用XPath表达式来定位需要提取的数据。例如,如果我们想要提取网页中所有的链接,可以使用以下XPath表达式:
```python
urls = selector.xpath('//a/@href')
```
XPath表达式中的`//a`表示选择所有的`a`标签,`@href`表示获取`a`标签的`href`属性。
如果我们想要提取网页中所有的文本内容,可以使用以下XPath表达式:
```python
text = selector.xpath('string(//body)')
```
XPath表达式中的`string(//body)`表示获取`body`标签内的所有文本内容。
这样,我们就可以使用XPath爬取网页并提取数据了。
阅读全文