使用Urllib爬取网页的Python程序
时间: 2023-03-05 13:51:25 浏览: 173
以下是使用Python中的Urllib库进行网页爬取的示例程序:
```python
import urllib.request
# 指定要抓取的页面url
url = "https://www.example.com/"
# 打开url链接并读取页面内容
response = urllib.request.urlopen(url)
html = response.read()
# 输出页面内容
print(html)
```
上述代码通过urllib.request.urlopen()函数打开指定的url链接,并读取页面内容。页面内容保存在变量`html`中,最后将其输出。
如果需要传递参数或设置header,可以使用`urllib.request.Request`方法,如下所示:
```python
import urllib.request
import urllib.parse
# 设置请求参数
data = urllib.parse.urlencode({'param1': 'value1', 'param2': 'value2'})
# 设置请求header
headers = {'User-Agent': 'Mozilla/5.0'}
# 构建请求对象
req = urllib.request.Request(url, data.encode(), headers)
# 打开url链接并读取页面内容
response = urllib.request.urlopen(req)
html = response.read()
# 输出页面内容
print(html)
```
在上面的示例中,使用`urllib.parse.urlencode()`将参数转换为url编码格式,并将其作为data参数传递给`urllib.request.Request`方法。同时,将headers作为字典传递给构建的请求对象。最后,使用打开url链接的方法读取页面内容,并将其输出。
阅读全文