python爬取页面所有href的值
时间: 2023-12-29 13:05:49 浏览: 181
提取页面中所有链接
5星 · 资源好评率100%
可以使用Python中的requests和BeautifulSoup库来实现页面的爬取和解析,然后使用正则表达式或BeautifulSoup的find_all方法来获取页面中所有的href值。
下面是一个示例代码:
```python
import requests
from bs4 import BeautifulSoup
import re
url = 'https://www.example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 使用正则表达式获取所有href值
links = re.findall('href="([^"]+)"', str(soup))
# 或者使用BeautifulSoup的find_all方法获取所有a标签,并获取href属性值
# links = [link.get('href') for link in soup.find_all('a')]
print(links)
```
这个代码会爬取页面 https://www.example.com 中所有的链接,并打印出来。你可以根据自己的需要进行修改。
阅读全文