beautifulsoup 正则表达式。
时间: 2023-11-04 09:59:32 浏览: 97
正则表达式
BeautifulSoup是一个Python的库,用于从HTML和XML文档中提取数据。可以使用正则表达式在提取数据时进一步执行筛选和匹配。
下面是一个示例Python代码,用于使用BeautifulSoup和正则表达式从HTML页面中提取所有链接:
```python
import re
from bs4 import BeautifulSoup
import requests
url = "https://www.example.com"
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")
links = []
for link in soup.find_all("a", href=True):
if re.match(r'^https?://', link['href']):
links.append(link['href'])
print(links)
```
正则表达式`r'^https?://'`表示搜索以"http://"或"https://"开头的字符串。这样,我们可以只提取带有这些前缀的链接,而忽略其他类型的链接。
阅读全文