python爬虫爬取网页数据
时间: 2023-09-15 09:19:17 浏览: 97
Python爬虫爬取网页信息
Python爬虫是一种自动化程序,可以模拟人的行为,从互联网上获取数据,其中最常用的库是Requests和BeautifulSoup。下面是一个简单的爬虫实例,可以获取指定网页的内容:
```python
import requests
from bs4 import BeautifulSoup
url = 'http://www.example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
print(soup.prettify())
```
这个例子中,我们首先导入requests和BeautifulSoup库,然后定义要爬取的网址。接着使用requests库的get方法来获取网页内容,并将其保存在response对象中。最后,我们使用BeautifulSoup库对网页进行解析,将其转化为一个可以操作的对象,最后输出整个网页的HTML代码。
阅读全文