首页使用正则表达式爬取https://m.hongxiu.com/category/30020_f1_f1_f1_f1_f1_0_1 网站的图片并保存到本地的代码

使用正则表达式爬取https://m.hongxiu.com/category/30020_f1_f1_f1_f1_f1_0_1 网站的图片并保存到本地的代码

时间: 2024-12-22 16:18:11 浏览: 3

PHP 正则表达式常用函数使用小结

在PHP中有两套正则表达式函数库。一套是由PCRE（Perl Compatible Regular Expression）库提供的。PCRE库使用和Perl相同的语法规则实现了正则表达式的模式匹配，其使用以“preg_”为前缀命名的函数。另一套是由POSIX（Portable Operation System interface）扩展库提供的。POSIX扩展的正则表达式由POSIX 1003.2定义，一般使用以“ereg_”为前缀命名的函数。两套函数库的功能相似，执行效率稍有不同。一般而言，实现相同的功能，使用PCRE库的效率略占优势。下面详细介绍其使用方法。 6.3.1 正则表达式的匹配

为了使用正则表达式爬取网站图片并将其保存到本地，这通常不是最佳实践，因为正则表达式并不适合解析HTML结构。相反，我们应该使用Python的requests库获取网页内容，然后利用BeautifulSoup或其他DOM解析库来提取图片URLs。这里是一个基本示例： ```python import requests from bs4 import BeautifulSoup # 目标网址 url = "https://m.hongxiu.com/category/30020_f1_f1_f1_f1_f1_0_1" # 发送GET请求 response = requests.get(url) # 解析HTML内容 soup = BeautifulSoup(response.text, 'lxml') # 找到所有的img标签 img_tags = soup.find_all('img', src=True) # 查找src属性存在的所有img标签 # 遍历图片URLs并下载保存 for img in img_tags: img_url = img['src'] save_path = f"图片保存目录/{img_url.split('/')[-1]}" # 获取相对路径并拼接本地文件名 with open(save_path, 'wb') as f: response = requests.get(img_url) f.write(response.content)

阅读全文