爬虫豆瓣伪装头部cookies
时间: 2024-06-19 08:04:14 浏览: 10
爬虫在访问网站时,需要发送HTTP请求头部信息。其中,User-Agent和Cookie是常见的伪装方式。
在豆瓣网站上,如果爬虫的请求头部信息过于简单,那么服务器会返回403禁止访问的错误。因此,我们需要在请求头部信息中添加一些信息来模拟浏览器的行为,从而避免被识别为爬虫。
首先,我们需要设置User-Agent信息,可以使用一些常见的浏览器的User-Agent信息。其次,我们需要添加Cookie信息,可以手动从浏览器中获取一些有效的Cookie值,也可以使用一些第三方库来自动获取。最后,为了增加访问的真实性,我们可以随机生成一些请求头部信息中的字段值。
下面是一个示例代码,展示了如何在爬虫中添加伪装头部和Cookie:
```
import requests
import random
# 设置伪装的User-Agent
user_agent_list = [
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36",
"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0",
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36",
]
# 随机选择一个User-Agent
user_agent = random.choice(user_agent_list)
# 设置Cookie信息
cookie_str = '这里填写你的Cookie'
# 构造请求头部信息
headers = {
'User-Agent': user_agent,
'Cookie': cookie_str,
'Referer': 'https://www.douban.com/',
'Accept-Language': 'zh-CN,zh;q=0.8',
}
# 发送请求
response = requests.get(url, headers=headers)
# 打印响应结果
print(response.text)
```