首页爬虫结果显示非法请求什么原因，我都把浏览器请求头里参数都搬到爬虫里了？

爬虫结果显示非法请求什么原因，我都把浏览器请求头里参数都搬到爬虫里了？

时间: 2023-12-19 10:27:20 浏览: 266

004.Python爬虫系列-web请求全过程剖析(重点)

前言 * 本小节给各位好好剖析一下web请求的全部过程,这样有助于后面我们遇到的各种各样的网站就有了入手的基本准则了. * 那么到底我们浏览器在输入完网址到我们看到网页的整体内容,这个过程中究竟发生了些什么? * 这里我们以百度为例 * 在访问百度的时候,浏览器会把这一次请求发送到百度的服务器(百度的一台电脑),由服务器接收到这个请求, 然后加载一些数据. 返回给浏览器，再由浏览器进行显示 * 听起来好像是个废话...但是这里蕴含着一个极为重要的东西在里面 * 注意 * 百度的服务器返回给浏览器的不直接是页面, 而是页面源代码(由html, css, js组成) * 由浏览器把页面源代码进行执行, 然后把执行之后的结果展示给用户 * 所以我们能看到在上一节的内容中,我们拿到的是百度的源代码(就是那堆看不懂的鬼东西)

非法请求的原因可能有多种，以下是一些常见的原因： 1. 网站对爬虫进行了反爬虫设置，例如设置了验证码、访问频率限制等等。您可以尝试模拟人类的行为，例如增加访问间隔、使用代理IP等等来规避反爬虫设置。 2. 爬虫的请求头与浏览器的请求头不完全一致，例如缺少某些参数或者参数值不正确。您可以尝试使用浏览器工具来查看请求头，确认您的爬虫请求头与浏览器请求头一致。 3. 爬虫的请求被网站拦截，可能是因为您的请求过于频繁或者请求量过大。您可以尝试减少请求频率，或者使用多个IP地址轮流请求来规避拦截。总之，非法请求的原因比较复杂，需要具体情况具体分析。建议您认真分析网站的反爬虫设置和请求头信息，尝试调整爬虫程序，提高请求成功率。

阅读全文