使用urllib爬取百度贴吧
时间: 2024-02-21 20:26:03 浏览: 129
以下是使用Python的urllib库爬取百度贴吧的示例代码:
```python
import urllib.request
import urllib.parse
# 设置请求头,模拟浏览器请求
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}
# 构造请求参数
values = {
'kw': 'python', # 贴吧名称
'ie': 'utf-8',
'pn': '0' # 贴吧页面数,0表示第一页
}
# 对请求参数进行编码
data = urllib.parse.urlencode(values).encode('utf-8')
# 构造请求对象
url = 'https://tieba.baidu.com/f?'
request = urllib.request.Request(url, data=data, headers=headers)
# 发送请求并获取响应
response = urllib.request.urlopen(request)
html = response.read().decode('utf-8')
# 打印响应内容
print(html)
```
该代码会爬取百度贴吧中名称为“python”的贴吧第一页的内容,并将响应内容打印出来。需要注意的是,如果要爬取多页内容,需要对请求参数中的“pn”值进行相应的修改。
阅读全文