首页写一个python爬虫通用模板

写一个python爬虫通用模板

时间: 2023-11-08 17:50:05 浏览: 90

以下是一个基本的Python爬虫通用模板，可以根据需要进行修改和调整： ```python import requests from bs4 import BeautifulSoup url = 'https://www.example.com' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} response = requests.get(url, headers=headers) soup = BeautifulSoup(response.content, 'html.parser') # 获取需要的数据 data = soup.find_all('tag', {'attribute': 'value'}) # 处理数据 for item in data: # 处理每个条目的数据 # 保存数据 with open('data.txt', 'w', encoding='utf-8') as f: for item in data: f.write(str(item) + '\n') ``` 这个模板使用了requests库和BeautifulSoup库，可以获取指定网站的HTML页面并解析其中的数据，然后进行处理和保存。其中，需要根据实际情况修改URL和headers，并根据HTML页面的结构进行选择器的编写。

阅读全文