python爬虫CNNVD

时间: 2023-11-08 08:58:14 浏览: 100
PDF

python爬取cnvd漏洞库信息的实例

作为一个 AI 语言模型,我可以为您提供一些关于使用 Python 爬虫爬取CNNVD(中国国家信息安全漏洞库)数据的基本步骤和代码示例。请注意,这只是一个简单的示例,完整和稳健的爬虫代码需要更多的细节和功能。同时,需要注意遵守网站的使用条款和法律法规。 1. 网站分析 首先,我们需要了解CNNVD网站的结构和数据组织方式。CNNVD网站提供了漏洞信息的查询和下载,但是它不像其他网站那样提供API接口。因此,我们需要手动模拟HTTP请求,从网站上爬取需要的数据。 2. 爬虫代码 接下来,我们可以使用 Python 中的 requests 库和 BeautifulSoup 库来编写爬虫代码。我们需要发送GET请求来获取网页的HTML源码,然后使用BeautifulSoup库解析HTML,获取漏洞信息。 ``` import requests from bs4 import BeautifulSoup url = 'http://www.cnnvd.org.cn/web/vulnerability/queryLds.tag' params = {'qcvCname': '', 'qcvCnnvdid': '', 'qcvSw': '', 'qstartdate': '', 'qenddate': '', 'orderBy': 'publishedDate&desc=true'} headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} response = requests.get(url, params=params, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') vul_list = soup.find_all('tr', {'class': 'tr-even' or 'tr-odd'}) for vul in vul_list: vul_id = vul.find('a').string vul_name = vul.find_all('td')[1].string vul_level = vul.find_all('td')[2].string vul_type = vul.find_all('td')[3].string vul_time = vul.find_all('td')[4].string print(vul_id, vul_name, vul_level, vul_type, vul_time) ``` 3. 结果输出 我们可以将结果输出到一个文件或数据库中,以便后续使用和分析。 ``` import csv with open('cnnvd.csv', 'w', encoding='utf-8', newline='') as f: writer = csv.writer(f) writer.writerow(['ID', 'Name', 'Level', 'Type', 'Time']) for vul in vul_list: vul_id = vul.find('a').string vul_name = vul.find_all('td')[1].string vul_level = vul.find_all('td')[2].string vul_type = vul.find_all('td')[3].string vul_time = vul.find_all('td')[4].string writer.writerow([vul_id, vul_name, vul_level, vul_type, vul_time]) ``` 以上是一些基本的步骤和代码示例,希望对您有所帮助。请注意,爬虫行为可能会侵犯网站的利益和用户隐私,因此请遵守相关法律法规和网站的使用条款。
阅读全文

相关推荐

py
# -*- coding:utf-8 -*- import sys #print (u'系统默认编码为',sys.getdefaultencoding()) default_encoding = 'utf-8' #重新设置编码方式为uft-8 if sys.getdefaultencoding() != default_encoding: reload(sys) sys.setdefaultencoding(default_encoding) #print (u'系统默认编码为',sys.getdefaultencoding()) import requests from bs4 import BeautifulSoup import traceback import re import xlwt def getURLDATA(url): #url = 'http://www.cnnvd.org.cn/web/xxk/ldxqById.tag?CNNVD=CNNVD-201901-1014' header={ 'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.80 Safari/537.36', 'Connection': 'keep-alive',} r=requests.get(url,headers=header,timeout=30) #r.raise_for_status()抛出异常 html = BeautifulSoup(r.content.decode(),'html.parser') link=html.find(class_='detail_xq w770')#漏洞信息详情 link_introduce=html.find(class_='d_ldjj')#漏洞简介 link_others=html.find_all(class_='d_ldjj m_t_20')#其他 #print(len(link_introduce)) try: #print ("危害等级:"+link.contents[3].contents[3].find('a').text.lstrip().rstrip())#危害等级 list4.append(str(link.contents[3].contents[3].find('a').text.lstrip().rstrip())) except: #print("危害等级:is empty") list4.append("") try: #print ("CVE编号:"+link.contents[3].contents[5].find('a').text.lstrip().rstrip())#CVE编号 list5.append(str(link.contents[3].contents[5].find('a').text.lstrip().rstrip())) except: #print("CVE编号:is empty") list5.append("") try: #print ("漏洞类型:"+link.contents[3].contents[7].find('a').text.lstrip().rstrip())#漏洞类型 list6.append(str(link.contents[3].contents[7].find('a').text.lstrip().rstrip())) except : #print("漏洞类型:is empty") list6.append("") try: #print ("发布时间:"+link.contents[3].contents[9].find('a').text.lstrip().rstrip())#发布时间 list7.append(str(link.contents[3].contents[9].find('a').text.lstrip().rstrip())) except : #print("发布时间:is empty") list7.append("") try: #print ("威胁类型:"+link.contents[3].contents[11].find('a').text.lstrip().rstrip())#威胁类型 list8.append(str(link.contents[3].contents[11].find('a').text.lstrip().rstrip())) except : #print("威胁类型:is empty") list8.append("") try: #print ("更新时间:"+link.contents[3].contents[13].find('a').text.lstrip().rstrip())#更新时间 list9.append(str(link.contents[3].contents[13].find('a').text.lstrip().rstrip())) except : #print("更新时间:is empty") list9.append("") try: #print ("厂商:"+link.contents[3].contents[15].find('a').text.lstrip().rstrip())#厂商 list10.append(str(link.contents[3].contents[15].find('a').text.lstrip().rstrip())) except: #print("厂商:is empty") list10.append("") #link_introduce=html.find(class_='d_ldjj')#漏洞简介 try: link_introduce_data=BeautifulSoup(link_introduce.decode(),'html.parser').find_all(name='p') s="" for i in range(0,len(link_introduce_data)): ##print (link_introduce_data[i].text.lstrip().rstrip()) s=s+str(link_introduce_data[i].text.lstrip().rstrip()) #print(s) list11.append(s) except : list11.append("") if(len(link_others)!=0): #link_others=html.find_all(class_='d_ldjj m_t_20') #print(len(link_others)) try: #漏洞公告 link_others_data1=BeautifulSoup(link_others[0].decode(),'html.parser').find_all(name='p') s="" for i in range(0,len(link_others_data1)): ##print (link_others_data1[i].text.lstrip().rstrip()) s=s+str(link_others_data1[i].text.lstrip().rstrip()) #print(s) list12.append(s) except: list12.append("") try: #参考网址 link_others_data2=BeautifulSoup(link_others[1].decode(),'html.parser').find_all(name='p') s="" for i in range(0,len(link_others_data2)): ##print (link_others_data2[i].text.lstrip().rstrip()) s=s+str(link_others_data2[i].text.lstrip().rstrip()) #print(s) list13.append(s) except: list13.append("") try: #受影响实体 link_others_data3=BeautifulSoup(link_others[2].decode(),'html.parser').find_all('a',attrs={'class':'a_title2'}) s="" for i in range(0,len(link_others_data3)): ##print (link_others_data3[i].text.lstrip().rstrip()) s=s+str(link_others_data3[i].text.lstrip().rstrip()) #print(s) list14.append(s) except: list14.append("") try: #补丁 link_others_data3=BeautifulSoup(link_others[3].decode(),'html.parser').find_all('a',attrs={'class':'a_title2'}) s="" for i in range(0,len(link_others_data3)): ##print (link_others_data3[i].t

最新推荐

recommend-type

OPPO 推搜广多业务多场景的统一预估引擎实践 (1).pdf

OPPO 推搜广多业务多场景的统一预估引擎实践 (1).pdf
recommend-type

C#HR人事管理系统源码数据库 MySQL源码类型 WebForm

HR人事管理系统源码 项目描述 人事管理,对用户,部门,职位,进行管理 运行环境:jdk7+tomcat7+mysql+IntelliJ IDEA+maven 使用技术:spring+spring mvc+mybatis+ligerUI+jquery+metronic+jsp
recommend-type

量化投资技术实验报告指导-实验任务与评估标准解析

内容概要:本文档详细介绍了《量化投资与风险管理》课程的背景、学习目标、课堂规则和课程考核方式。特别关注理论课程的学习,其中包括三次课后作业,主要考察学生的格式规范、内容全面性和答案正确性。实验部分则由多次作业组成,重点考查因子的有效性、数据处理能力和实验报告的质量,还要求学生能够独立设计因子并对其进行详尽分析。此外,实验课程还包括最终的成绩验收答辩。 适合人群:适用于正在参加《量化投资与风险管理》课程的学生或希望深入理解和掌握量化投资方法的研究者。 使用场景及目标:帮助参与者明确每个教学环节的任务指标及评判准则,提高实验技能,确保能按时按质完成各项任务。 阅读建议:建议仔细研读每条考核细则,注意实验报告的具体要求(如数据处理流程)和最终答辩所需材料。同时关注实验过程中可能出现的问题及其解决思路,有助于提升实践能力并获取更好的评价结果。
recommend-type

ioDraw-v3.1.0-mac-x64.dmg,流程图、思维导图、甘特图绘制软件,macOS x64版

1、ioDraw 是免费的在线作图软件,用于制作流程图、思维导图、甘特图、白板手绘图、mermaid流程图、海报设计、折线图、柱状图、拓扑图、组织结构图、UML、ER和时序图、平面设计图、电子电路图等,无需注册即可使用 2、替代Visio的免费软件,无使用限制 3、适合程序员、白领、系统架构师、项目经理、平面设计师、产品经理使用 4、v3.1.0变更日志: 新增将文件保存到百度网盘。 新增对macOS的支持。 修复第三方平台文件列表页显示问题。
recommend-type

计算机网络 - 思科模拟器 - Cisco Packet Tracer 令牌.zip

资源简介:计算机网络 - 思科模拟器 - Cisco Packet Tracer 令牌.zip 一、资源概述 本资源是一个压缩包(.zip格式),内含用于注册或激活思科(Cisco)Packet Tracer模拟器的令牌(Token)。Cisco Packet Tracer是一款由思科公司开发的网络模拟软件,它允许用户在没有实际硬件的情况下,通过模拟的网络环境进行网络配置、故障排除和实验。这款软件是学习计算机网络技术、CCNA(思科认证网络工程师)考试备考等不可或缺的工具。 二、资源用途 激活Packet Tracer:对于需要从思科官网下载或更新Packet Tracer软件的用户来说,有效的令牌是完成注册和激活流程的关键。本资源提供的令牌旨在帮助用户顺利完成这一过程,从而享受Packet Tracer提供的全部功能。 学习与实践:Packet Tracer为用户提供了一个直观且易于操作的模拟网络环境,用户可以在其中创建自定义网络拓扑、配置设备参数、模拟网络流量等。通过这一平台,用户可以深入学习网络协议、路由与交换技术、网络安全等领域的知识,并通过实践加深理解。
recommend-type

平尾装配工作平台运输支撑系统设计与应用

资源摘要信息:"该压缩包文件名为‘行业分类-设备装置-用于平尾装配工作平台的运输支撑系统.zip’,虽然没有提供具体的标签信息,但通过文件标题可以推断出其内容涉及的是航空或者相关重工业领域内的设备装置。从标题来看,该文件集中讲述的是有关平尾装配工作平台的运输支撑系统,这是一种专门用于支撑和运输飞机平尾装配的特殊设备。 平尾,即水平尾翼,是飞机尾部的一个关键部件,它对于飞机的稳定性和控制性起到至关重要的作用。平尾的装配工作通常需要在一个特定的平台上进行,这个平台不仅要保证装配过程中平尾的稳定,还需要适应平尾的搬运和运输。因此,设计出一个合适的运输支撑系统对于提高装配效率和保障装配质量至关重要。 从‘用于平尾装配工作平台的运输支撑系统.pdf’这一文件名称可以推断,该PDF文档应该是详细介绍这种支撑系统的构造、工作原理、使用方法以及其在平尾装配工作中的应用。文档可能包括以下内容: 1. 支撑系统的设计理念:介绍支撑系统设计的基本出发点,如便于操作、稳定性高、强度大、适应性强等。可能涉及的工程学原理、材料学选择和整体结构布局等内容。 2. 结构组件介绍:详细介绍支撑系统的各个组成部分,包括支撑框架、稳定装置、传动机构、导向装置、固定装置等。对于每一个部件的功能、材料构成、制造工艺、耐腐蚀性以及与其他部件的连接方式等都会有详细的描述。 3. 工作原理和操作流程:解释运输支撑系统是如何在装配过程中起到支撑作用的,包括如何调整支撑点以适应不同重量和尺寸的平尾,以及如何进行运输和对接。操作流程部分可能会包含操作步骤、安全措施、维护保养等。 4. 应用案例分析:可能包含实际操作中遇到的问题和解决方案,或是对不同机型平尾装配过程的支撑系统应用案例的详细描述,以此展示系统的实用性和适应性。 5. 技术参数和性能指标:列出支撑系统的具体技术参数,如载重能力、尺寸规格、工作范围、可调节范围、耐用性和可靠性指标等,以供参考和评估。 6. 安全和维护指南:对于支撑系统的使用安全提供指导,包括操作安全、应急处理、日常维护、定期检查和故障排除等内容。 该支撑系统作为专门针对平尾装配而设计的设备,对于飞机制造企业来说,掌握其详细信息是提高生产效率和保障产品质量的重要一环。同时,这种支撑系统的设计和应用也体现了现代工业在专用设备制造方面追求高效、安全和精确的趋势。"
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

MATLAB遗传算法探索:寻找随机性与确定性的平衡艺术

![MATLAB多种群遗传算法优化](https://img-blog.csdnimg.cn/39452a76c45b4193b4d88d1be16b01f1.png) # 1. 遗传算法的基本概念与起源 遗传算法(Genetic Algorithm, GA)是一种模拟自然选择和遗传学机制的搜索优化算法。起源于20世纪60年代末至70年代初,由John Holland及其学生和同事们在研究自适应系统时首次提出,其理论基础受到生物进化论的启发。遗传算法通过编码一个潜在解决方案的“基因”,构造初始种群,并通过选择、交叉(杂交)和变异等操作模拟生物进化过程,以迭代的方式不断优化和筛选出最适应环境的
recommend-type

如何在S7-200 SMART PLC中使用MB_Client指令实现Modbus TCP通信?请详细解释从连接建立到数据交换的完整步骤。

为了有效地掌握S7-200 SMART PLC中的MB_Client指令,以便实现Modbus TCP通信,建议参考《S7-200 SMART Modbus TCP教程:MB_Client指令与功能码详解》。本教程将引导您了解从连接建立到数据交换的整个过程,并详细解释每个步骤中的关键点。 参考资源链接:[S7-200 SMART Modbus TCP教程:MB_Client指令与功能码详解](https://wenku.csdn.net/doc/119yes2jcm?spm=1055.2569.3001.10343) 首先,确保您的S7-200 SMART CPU支持开放式用户通
recommend-type

MAX-MIN Ant System:用MATLAB解决旅行商问题

资源摘要信息:"Solve TSP by MMAS: Using MAX-MIN Ant System to solve Traveling Salesman Problem - matlab开发" 本资源为解决经典的旅行商问题(Traveling Salesman Problem, TSP)提供了一种基于蚁群算法(Ant Colony Optimization, ACO)的MAX-MIN蚁群系统(MAX-MIN Ant System, MMAS)的Matlab实现。旅行商问题是一个典型的优化问题,要求找到一条最短的路径,让旅行商访问每一个城市一次并返回起点。这个问题属于NP-hard问题,随着城市数量的增加,寻找最优解的难度急剧增加。 MAX-MIN Ant System是一种改进的蚁群优化算法,它在基本的蚁群算法的基础上,对信息素的更新规则进行了改进,以期避免过早收敛和局部最优的问题。MMAS算法通过限制信息素的上下界来确保算法的探索能力和避免过早收敛,它在某些情况下比经典的蚁群系统(Ant System, AS)和带有局部搜索的蚁群系统(Ant Colony System, ACS)更为有效。 在本Matlab实现中,用户可以通过调用ACO函数并传入一个TSP问题文件(例如"filename.tsp")来运行MMAS算法。该问题文件可以是任意的对称或非对称TSP实例,用户可以从特定的网站下载多种标准TSP问题实例,以供测试和研究使用。 使用此资源的用户需要注意,虽然该Matlab代码可以免费用于个人学习和研究目的,但若要用于商业用途,则需要联系作者获取相应的许可。作者的电子邮件地址为***。 此外,压缩包文件名为"MAX-MIN%20Ant%20System.zip",该压缩包包含Matlab代码文件和可能的示例数据文件。用户在使用之前需要将压缩包解压,并将文件放置在Matlab的适当工作目录中。 为了更好地理解和应用该资源,用户应当对蚁群优化算法有初步了解,尤其是对MAX-MIN蚁群系统的基本原理和运行机制有所掌握。此外,熟悉Matlab编程环境和拥有一定的编程经验将有助于用户根据个人需求修改和扩展算法。 在实际应用中,用户可以根据问题规模调整MMAS算法的参数,如蚂蚁数量、信息素蒸发率、信息素增量等,以获得最优的求解效果。此外,也可以结合其他启发式或元启发式算法,如遗传算法、模拟退火等,来进一步提高算法的性能。 总之,本资源为TSP问题的求解提供了一种有效的算法框架,且Matlab作为编程工具的易用性和强大的计算能力,使得该资源成为算法研究人员和工程技术人员的有力工具。通过本资源的应用,用户将能够深入探索并实现蚁群优化算法在实际问题中的应用,为解决复杂的优化问题提供一种新的思路和方法。