python爬虫正则表达式
时间: 2023-10-22 15:07:03 浏览: 84
玩转python爬虫之正则表达式
Python爬虫正则表达式是一种用于解析和匹配文本的工具。正则表达式是一种基于字符序列的模式匹配方法,它可以用来识别文本中的特定模式,例如搜索或替换字符串中的特定字符或单词。
在Python中,使用re模块来实现正则表达式操作。以下是一些常见的正则表达式符号:
1. . :匹配任意字符
2. * :匹配前一个字符0次或多次
3. + :匹配前一个字符1次或多次
4. ? :匹配前一个字符0次或1次
5. [] :匹配括号内的任意一个字符
6. () :标记一个子表达式的开始和结束位置,匹配结果可以在后续的操作中使用
7. \ :转义字符,用于匹配特殊字符,如\w表示匹配任意字母或数字
下面是一个简单的示例,使用正则表达式匹配HTML标签中的超链接:
import re
html = '<a href="https://www.baidu.com">百度</a>'
pattern = r'<a href="(.*?)">(.*?)</a>'
result = re.findall(pattern, html)
print(result)
输出结果为:
[('https://www.baidu.com', '百度')]
阅读全文