import requests from lxml import etree e ittys:/hal.aLuhaodar s o/y siub.ctenuy.hpid-1748281 e÷NE46890%56968945证5685818ED78A686f1te=4%fHJTthaHlDblang-ChineseEquiokAload=-80+bpage=al b69gunl : littit/⑴al.a lacnreas conlyv i.cte n.y.1pnl1e1274821ere报548902证6430689A3短50858儿1E78468kf1.ter 4ik1.1r .l02 .np C.h1nesekqwuic.k10n3138B.6AeER.e, index = 0 for page in range(1,31): print('正在爬取第'+str(page)+'页")url = base_url+str(page) #/ /img[@class="img-responsive big-thumb thumb-desktop" ]/@srcresponse = requests.get(url=url) content = response.text # print(content) tree = etree.HTML(content) img_li = tree.xpath( ' / /img[@class="img-responsive big-thumb thumb-desktop"]/@src' )for img_url in img_li: print('正在爬取第"+str(index)+'张') img_response = requests.get(url=img_url)img_content = img_response.content index += 1 # print(img_url) extension = ' . ' +img_url.split( '. ')[-1] fp.write(img_content)
时间: 2024-04-01 16:38:22 浏览: 87
这段代码是一个Python爬虫,用于爬取一个网站上的图片。它首先导入了requests和lxml库,然后定义了一个基础的URL和页码范围。在循环中,它使用requests库获取每一页的内容,然后使用lxml库解析HTML内容并提取出所有图片的URL。接着,它再次使用requests库获取每个图片的内容,并将它们写入文件。最后,它使用图片的URL中的扩展名来为文件命名。
阅读全文