怎么用BeautifulSoup提取代码里的链接
时间: 2024-02-27 11:58:22 浏览: 40
使用requests和BeautifulSoup库实现从任意网站爬取数据_附源代码+注释
5星 · 资源好评率100%
你可以使用BeautifulSoup的find_all方法和正则表达式来提取代码里的链接。
首先,你需要导入BeautifulSoup和re模块:
```python
from bs4 import BeautifulSoup
import re
```
然后,你需要使用BeautifulSoup解析HTML代码:
```python
html_code = """
<html>
<body>
<p>这是一个链接:<a href="https://www.example.com">示例链接</a></p>
<p>这是另一个链接:<a href="https://www.google.com">Google</a></p>
</body>
</html>
"""
soup = BeautifulSoup(html_code, 'html.parser')
```
接下来,你可以使用find_all方法找到所有的a标签:
```python
links = soup.find_all('a')
```
最后,你可以使用正则表达式提取链接:
```python
for link in links:
href = link.get('href')
if href is not None and re.match('^http', href):
print(href)
```
这样就可以提取出所有以http开头的链接了。
阅读全文