使用requests库获取一个网页的内容,并用第三方库如BeautifulSoup来解析HTML,然后提取页面上的所有链接地址。
时间: 2024-11-22 07:42:49 浏览: 27
在Python中,你可以使用`requests`库来发送HTTP请求并获取网页内容,`BeautifulSoup`库则用于解析HTML文档。以下是简单的步骤:
1. 首先,需要安装这两个库,如果尚未安装,可以使用pip进行安装:
```bash
pip install requests beautifulsoup4
```
2. 然后,导入所需的模块:
```python
import requests
from bs4 import BeautifulSoup
```
3. 定义一个函数,使用requests.get()获取网页内容:
```python
def get_webpage(url):
response = requests.get(url)
if response.status_code == 200:
return response.text
else:
print(f"Failed to fetch the webpage with status code {response.status_code}")
return None
```
4. 解析网页内容并提取链接:
```python
def extract_links(html_content):
soup = BeautifulSoup(html_content, 'html.parser')
links = [a['href'] for a in soup.find_all('a', href=True)] # 找到所有的a标签并提取href属性
return links
# 示例
url = "http://example.com"
webpage_content = get_webpage(url)
links = extract_links(webpage_content)
```
在这个例子中,`extract_links()`函数会返回一个包含网页上所有链接地址的列表。
阅读全文