正则表达式获取href
时间: 2023-11-17 09:58:39 浏览: 61
正则表达式获取href是一种常见的网页爬虫技术,可以通过正则表达式匹配网页中的链接地址。在Python中,可以使用re模块中的findall方法来实现正则表达式匹配。具体实现方法如下:
import re
url_regex = re.compile('<a[^>]+href=["\'](.*?)["\']', re.IGNORECASE)
result = url_regex.findall(html_str)
其中,url_regex是一个正则表达式对象,用于匹配网页中的链接地址。findall方法会返回一个列表,其中包含了所有匹配到的链接地址。在这个例子中,我们使用了一个通用的正则表达式,可以匹配所有的a标签中的href属性。如果需要匹配其他类型的链接,可以根据实际情况修改正则表达式。