找到所有href里的网址
时间: 2024-03-14 16:50:06 浏览: 9
如果你想要获取HTML文档中所有链接标签的href属性值(即网址),可以使用以下步骤:
1. 使用一个HTML解析器(如BeautifulSoup)解析HTML文档。
2. 使用find_all()方法找到所有链接标签。
3. 使用循环遍历所有的链接标签,并使用get()方法获取它们的href属性值。
下面是一个使用BeautifulSoup库获取HTML文档中所有链接标签的href属性值的示例代码:
```
from bs4 import BeautifulSoup
# 假设HTML文档已经存在,可以通过requests库获取
html_doc = """
<html>
<head>
<title>测试页面</title>
</head>
<body>
<a href="http://www.example.com">这是一个示例链接1</a>
<a href="http://www.google.com">这是一个示例链接2</a>
<a href="http://www.baidu.com">这是一个示例链接3</a>
</body>
</html>
"""
# 使用BeautifulSoup解析HTML文档
soup = BeautifulSoup(html_doc, 'html.parser')
# 找到所有<a>标签
links = soup.find_all('a')
# 遍历所有的链接标签,并获取它们的href属性值
for link in links:
href = link.get('href')
print(href)
```
运行上述代码会输出以下结果:
```
http://www.example.com
http://www.google.com
http://www.baidu.com
```
需要注意的是,使用find_all()方法会返回一个列表,其中包含了所有符合条件的元素。因此,你需要使用循环遍历列表,才能获取所有链接标签的href属性值。
相关推荐
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)