import requests from lxml import etree if __name__ == "__main__": url='https://pic.netbian.com/4kdongman/index_%d.html' headers={ "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36" } a=eval(input('2')) b=eval(input('2')) for num in range(a,b): newurl=format(url%num) response=requests.get(url=newurl,headers=headers) response.encoding='gbk' text=response.text tree=etree.HTML(text) list=tree.xpath('//div[@class="slist"]/ul/li') for li in list: c_url='https://pic.netbian.com'+li.xpath('./a//@href')[0] c_response=requests.get(url=c_url,headers=headers) c_text=c_response.text c_tree=etree.HTML(c_text) c_list=c_tree.xpath('//div[@class="photo-pic"]/a/img/@src')[0] lasturl='https://pic.netbian.com'+c_list l_response=requests.get(url=lasturl,headers=headers) l_response.encoding='gbk' name = c_tree.xpath('//div[@class="photo-pic"]/a/img/@alt')[0] name=name.encode('iso-8859-1').decode('gbk') date=l_response.content path = "D:\tupian" + name +'.jpg'# 根据自己需要改这里(name之前) with open(path, 'wb') as p: p.write(date) print(name, '爬取成功') print('爬取完成')翻译这段代码
时间: 2024-04-22 11:23:16 浏览: 131
irq_srm.rar_SRM_The Handle
这段代码是一个Python爬虫程序,用于从网站 https://pic.netbian.com/4kdongman/ 上爬取动漫图片。代码使用 requests 和 lxml 库来获取和解析网页内容。
程序首先定义了一个 URL 和请求头 headers,然后通过输入两个数字 a 和 b 来指定需要爬取的网页范围。程序使用 for 循环遍历指定的网页范围,并通过 requests 库发送 GET 请求获取网页内容。然后使用 lxml 库解析 HTML 代码,找到需要的图片链接和图片名称。
接下来,程序使用 requests 库再次发送 GET 请求获取图片的二进制数据,将其保存到本地文件夹中。最后输出爬取成功的图片名称,直到所有图片都被成功下载。
阅读全文