头歌urllib 爬虫
时间: 2023-11-14 11:04:47 浏览: 174
使用urllib库进行爬虫时,可以采用两种方法模拟浏览器访问网页并爬取数据。第一种方法是使用urllib.request.Request方法,通过添加header来模拟浏览器的请求头信息。代码示例如下:
```python
import urllib.request
url = "http://baidu.com" # 爬取网页的url
req = urllib.request.Request(url)
req.add_header("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36 QIHU 360SE")
data = urllib.request.urlopen(req).read()
print(data)
```
第二种方法是使用urllib.request.build_opener方法,通过修改报头信息来模拟浏览器的访问。代码示例如下:
```python
import urllib.request
url = "http://baidu.com" # 爬取网页的url
headers = ("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36 QIHU 360SE")
opener = urllib.request.build_opener()
opener.addheaders = [headers]
data = opener.open(url).read()
print(data)
```
使用这两种方法,可以在爬虫程序中设置请求头信息,使其看起来像是一个正常的浏览器访问网页,从而规避一些反爬虫的措施。
阅读全文