首页头歌urllib 爬虫

头歌urllib 爬虫

时间: 2023-11-14 18:04:47 浏览: 181

使用urllib库进行爬虫时，可以采用两种方法模拟浏览器访问网页并爬取数据。第一种方法是使用urllib.request.Request方法，通过添加header来模拟浏览器的请求头信息。代码示例如下： ```python import urllib.request url = "http://baidu.com" # 爬取网页的url req = urllib.request.Request(url) req.add_header("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36 QIHU 360SE") data = urllib.request.urlopen(req).read() print(data) ``` 第二种方法是使用urllib.request.build_opener方法，通过修改报头信息来模拟浏览器的访问。代码示例如下： ```python import urllib.request url = "http://baidu.com" # 爬取网页的url headers = ("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36 QIHU 360SE") opener = urllib.request.build_opener() opener.addheaders = [headers] data = opener.open(url).read() print(data) ``` 使用这两种方法，可以在爬虫程序中设置请求头信息，使其看起来像是一个正常的浏览器访问网页，从而规避一些反爬虫的措施。

阅读全文