首页使用urllib爬取百度贴吧

使用urllib爬取百度贴吧

时间: 2024-02-21 17:26:03 浏览: 134

以下是使用Python的urllib库爬取百度贴吧的示例代码： ```python import urllib.request import urllib.parse # 设置请求头，模拟浏览器请求 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36' } # 构造请求参数 values = { 'kw': 'python', # 贴吧名称 'ie': 'utf-8', 'pn': '0' # 贴吧页面数，0表示第一页 } # 对请求参数进行编码 data = urllib.parse.urlencode(values).encode('utf-8') # 构造请求对象 url = 'https://tieba.baidu.com/f?' request = urllib.request.Request(url, data=data, headers=headers) # 发送请求并获取响应 response = urllib.request.urlopen(request) html = response.read().decode('utf-8') # 打印响应内容 print(html) ``` 该代码会爬取百度贴吧中名称为“python”的贴吧第一页的内容，并将响应内容打印出来。需要注意的是，如果要爬取多页内容，需要对请求参数中的“pn”值进行相应的修改。

阅读全文