python 爬虫快速入门
时间: 2023-07-02 08:03:38 浏览: 137
Python爬虫入门
Python 爬虫是指使用 Python 编写程序,利用爬虫框架来自动化地获取互联网上的数据。下面是一个快速入门的示例。
首先,我们需要安装一个爬虫框架,比如 requests 和 beautifulsoup4。可以使用以下命令来安装:
```
pip install requests beautifulsoup4
```
接下来,我们可以使用 requests 库来获取网页的 HTML 内容,然后使用 beautifulsoup4 库来解析 HTML。
下面是一个简单的例子,它获取了百度首页的 HTML 内容,并输出了其中的标题:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://www.baidu.com'
response = requests.get(url)
html = response.text
soup = BeautifulSoup(html, 'html.parser')
title = soup.title.string.strip()
print(title)
```
运行结果:
```
百度一下,你就知道
```
这个例子中,我们首先使用 requests 库发送了一个 GET 请求,获取了百度首页的 HTML 内容。然后使用 beautifulsoup4 库来解析 HTML,获取了标题并输出。
当然,这只是一个非常简单的例子。实际上,爬虫可以做很多事情,比如自动化登录、爬取大量数据、分析数据等等。但是需要注意的是,爬虫也需要遵守法律法规和网站的规定,不要进行违法和恶意的操作。
阅读全文