使用网络爬虫Xpath爬取百度贴吧网页的url代码
时间: 2024-04-30 22:22:21 浏览: 162
百度贴吧的爬取
5星 · 资源好评率100%
这里是一个使用Python的XPath爬取百度贴吧网页的示例代码:
```python
import requests
from lxml import etree
url = "https://tieba.baidu.com/f?kw=python&ie=utf-8&pn=0"
response = requests.get(url)
html = etree.HTML(response.text)
links = html.xpath('//a[@class="j_th_tit"]/@href')
for link in links:
print("https://tieba.baidu.com" + link)
```
解释:
1. 首先导入需要的库:requests和lxml.etree。
2. 定义要爬取的网页链接。
3. 使用requests库向链接发送GET请求,并获取响应。
4. 使用lxml.etree的HTML函数将响应内容解析为HTML文档。
5. 使用XPath表达式选取所有class属性为“j_th_tit”的a标签,并获取它们的href属性。
6. 遍历所有链接,将它们的相对路径转换为完整URL,并输出到控制台。
阅读全文