用python写个简易的爬虫框架
时间: 2023-06-15 15:07:56 浏览: 73
好的,以下是一个简单的爬虫框架的示例代码:
```python
import requests
from bs4 import BeautifulSoup
class Crawler():
def __init__(self, url):
self.url = url
def get_html(self):
r = requests.get(self.url)
return r.text
def parse_html(self, html):
soup = BeautifulSoup(html, 'html.parser')
# 在这里编写解析代码,可以使用BeautifulSoup等库
def run(self):
html = self.get_html()
self.parse_html(html)
if __name__ == '__main__':
crawler = Crawler('http://www.example.com')
crawler.run()
```
这个爬虫框架包含了 `Crawler` 类,其构造函数需要传入要爬取的网站的URL。`get_html` 方法用于获取网站的HTML代码,`parse_html` 方法用于解析HTML代码。在 `run` 方法中,我们先获取HTML代码,然后解析HTML代码。
这个示例代码只是一个简单的框架,需要根据实际需要进行扩展。比如,可以添加多线程和分布式爬取等功能。
相关推荐
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)