python编写爬虫代码
时间: 2023-02-05 07:05:14 浏览: 70
在 Python 中编写爬虫代码,需要使用到一些 Python 的库和模块,如 requests 库和 BeautifulSoup 模块。
步骤如下:
1. 导入所需的库和模块。
2. 使用 requests 库发送 HTTP 请求,并获取网页的源代码。
3. 使用 BeautifulSoup 解析网页源代码,并提取所需的信息。
4. 将提取到的信息存储到本地或者数据库中。
例如,以下是一个简单的 Python 爬虫代码,它可以提取网页的标题:
```python
import requests
from bs4 import BeautifulSoup
# 发送 HTTP 请求并获取网页源代码
response = requests.get('http://www.example.com')
html = response.text
# 使用 BeautifulSoup 解析网页源代码
soup = BeautifulSoup(html, 'html.parser')
# 提取标题
title = soup.title.string
print(title)
```
在这个例子中,我们使用了 requests 库来发送 HTTP 请求并获取网页的源代码,然后使用 BeautifulSoup 解析网页源代码,最后提取标题并打印出来。
阅读全文