python爬虫提取网址
时间: 2024-06-21 13:01:01 浏览: 149
Python爬虫通常使用库如BeautifulSoup和Requests等工具来提取网页上的网址。以下是一个简单的步骤来说明这个过程:
1. 安装必要的库:
```
pip install requests beautifulsoup4
```
2. 导入所需模块:
```python
import requests
from bs4 import BeautifulSoup
```
3. 发送HTTP请求获取网页内容:
```python
url = "http://example.com" # 你需要抓取的网页地址
response = requests.get(url)
```
4. 使用BeautifulSoup解析HTML内容:
```python
soup = BeautifulSoup(response.text, 'html.parser')
```
5. 查找和提取URLs:
```python
links = [a['href'] for a in soup.find_all('a', href=True)] # 提取所有`<a>`标签中的href属性
```
6. 可能还需要过滤或处理提取到的链接(例如去除#、?部分或仅保留主域名):
```python
valid_links = [link.split('#').split('?') for link in links if link]
```
阅读全文