如何使用该代码爬取http://www.ccgp.gov.cn/cr/list网站import requests import re url="http://www.ccgp.gov.cn/cr/list" headers1={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36 Edg/93.0.961.52"} data={"gp":"8"} response=requests.post(url,data=data,headers=headers1) response.encoding=response.apparent_encoding #使两个编码(内容编码和解码方式)相同 #print(response.text) #s1="<td class=xl7032365>(\d\d0000)</td>.\n.*?<td class=xl7032365>(.*?)</td>" s1="<td width=%12>(\d\d0000)</td>.\n.*?<td class=xl7032365>(.*?)</td>" res=re.findall(s1,response.text) print(res) with open('data.csv','w',newline='') as file: writer=csv.writer(file) writer.writerows(res)
时间: 2024-04-26 21:25:24 浏览: 102
这段代码使用了Python的requests和re模块来实现网页爬取和信息提取的功能。具体来说,代码使用POST方法向http://www.ccgp.gov.cn/cr/list网站发送了一个gp=8的请求,然后用正则表达式提取了该网页中所有符合指定模式的信息,并将其存储到了一个名为data.csv的CSV文件中。
如果您想要运行这段代码,需要安装requests和re模块,并将代码中的路径名改成您想要保存CSV文件的路径。另外,需要注意的是,该网站可能会对频繁的爬取行为进行限制,因此需要谨慎使用。
阅读全文