用requests和xpath写一个爬虫程序爬取网页文本
时间: 2023-11-28 16:04:17 浏览: 93
网页爬虫程序
好的,下面是一个简单的示例程序:
```python
import requests
from lxml import etree
# 定义目标网页的url
url = 'https://www.example.com/'
# 发送GET请求并获取响应
response = requests.get(url)
# 解析响应内容
html = etree.HTML(response.text)
# 使用xpath选择器提取文本内容
text_list = html.xpath('//p/text()')
# 输出结果
print(text_list)
```
在这个示例程序中,我们首先使用 `requests` 库发送了一个GET请求,获取了目标网页的响应。然后,我们使用 `etree` 模块将响应内容解析成了一个HTML树,并使用xpath选择器从中提取了所有 `p` 标签的文本内容。最后,我们将提取到的文本内容打印出来。
当然,这只是一个简单的示例程序,实际爬取网页时还需要处理各种异常情况,比如网络连接失败、网页解析失败等等。另外,还需要注意网页的版权问题,尊重网站所有者的权益,不要进行未经授权的爬取。
阅读全文