首页python爬取指定网页的所有内容，findall正则表达式怎么匹配

python爬取指定网页的所有内容，findall正则表达式怎么匹配

时间: 2024-01-24 15:32:06 浏览: 70

要使用正则表达式的 `findall` 方法来匹配指定网页的内容，你需要先导入 Python 的 `re` 模块。然后，你可以使用 `re.findall(pattern, string)` 方法来进行匹配。其中，`pattern` 是你要匹配的正则表达式，`string` 是要在其中进行匹配的字符串。下面是一个例子，演示如何使用 `re.findall` 方法来匹配指定网页的所有内容： ```python import re import requests # 发送请求获取网页内容 url = 'https://www.example.com' response = requests.get(url) content = response.text # 定义要匹配的正则表达式 pattern = r'<.*?>' # 匹配所有 HTML 标签 # 使用 findall 方法进行匹配 result = re.findall(pattern, content) # 输出匹配结果 for item in result: print(item) ``` 在上面的例子中，我们首先使用 `requests` 库发送请求获取指定网页的内容，并将其保存在 `content` 变量中。然后，我们定义了一个简单的正则表达式 `r'<.*?>'`，它可以匹配所有 HTML 标签。最后，我们使用 `re.findall` 方法对 `content` 进行匹配，并将匹配结果保存在 `result` 中。最后，我们遍历输出了所有的匹配结果。请根据你需要匹配的具体内容来调整正则表达式的模式。

阅读全文