python爬虫爬取CNNVD网页数据,并将信息存入一个文件中
时间: 2024-03-25 08:36:49 浏览: 153
python爬取cnnvd漏洞脚本
好的,这个问题我可以回答。你可以通过以下步骤来实现:
1. 导入必要的库,包括 requests 和 BeautifulSoup 等:
```python
import requests
from bs4 import BeautifulSoup
```
2. 定义一个函数用于获取网页的HTML内容:
```python
def get_html(url):
response = requests.get(url)
return response.text
```
3. 定义一个函数用于解析HTML内容:
```python
def parse_html(html):
soup = BeautifulSoup(html, 'html.parser')
table = soup.find('table', class_='tlist')
rows = table.find_all('tr')[1:]
data = []
for row in rows:
cols = row.find_all('td')
vul_id = cols[0].text.strip()
vul_name = cols[1].text.strip()
vul_level = cols[2].text.strip()
vul_time = cols[3].text.strip()
data.append((vul_id, vul_name, vul_level, vul_time))
return data
```
4. 定义一个函数用于将数据存入文件:
```python
def save_to_file(data, filename):
with open(filename, 'w', encoding='utf-8') as f:
for item in data:
f.write('\t'.join(item) + '\n')
```
5. 调用函数获取数据并存入文件:
```python
if __name__ == '__main__':
url = 'http://www.cnnvd.org.cn/web/vulnerability/querylist.tag'
html = get_html(url)
data = parse_html(html)
save_to_file(data, 'cnnvd.txt')
```
这样,你就可以通过 Python 爬虫爬取CNNVD网页数据,并将信息存入一个文件中了。
阅读全文