Python 爬虫怎么写
时间: 2023-11-19 17:45:46 浏览: 15
用Python写爬虫
Python 爬虫是指使用 Python 语言编写的程序,用于从网站或其他在线资源中提取数据。
写 Python 爬虫的步骤如下:
1. 导入所需的库,例如 requests 库用于发送 HTTP 请求,BeautifulSoup 库用于解析 HTML/XML 文档。
2. 设定要爬取的网站 URL。
3. 发送 HTTP 请求到所设定的 URL,并获取响应。
4. 对响应内容进行解析,提取所需的数据。
5. 对提取到的数据进行处理,例如存储到本地文件或数据库中。
下面是一个简单的 Python 爬虫的示例代码,爬取网站首页的 HTML 内容:
```python
import requests
URL = "http://www.example.com"
response = requests.get(URL)
html_content = response.text
print(html_content)
```
此示例代码使用 requests 库发送 HTTP GET 请求到所设定的 URL,并将响应内容保存到变量 `html_content` 中。
注意:在写 Python 爬虫时,要遵守网站的机器人协议(robots.txt),并尽可能不要给网站带来额外负载。
阅读全文