首页使用requests库获取一个网页的内容，并用第三方库如BeautifulSoup来解析HTML，然后提取页面上的所有链接地址。

使用requests库获取一个网页的内容，并用第三方库如BeautifulSoup来解析HTML，然后提取页面上的所有链接地址。

时间: 2024-11-22 10:42:49 浏览: 31

在Python中，你可以使用`requests`库来发送HTTP请求并获取网页内容，`BeautifulSoup`库则用于解析HTML文档。以下是简单的步骤： 1. 首先，需要安装这两个库，如果尚未安装，可以使用pip进行安装： ```bash pip install requests beautifulsoup4 ``` 2. 然后，导入所需的模块： ```python import requests from bs4 import BeautifulSoup ``` 3. 定义一个函数，使用requests.get()获取网页内容： ```python def get_webpage(url): response = requests.get(url) if response.status_code == 200: return response.text else: print(f"Failed to fetch the webpage with status code {response.status_code}") return None ``` 4. 解析网页内容并提取链接： ```python def extract_links(html_content): soup = BeautifulSoup(html_content, 'html.parser') links = [a['href'] for a in soup.find_all('a', href=True)] # 找到所有的a标签并提取href属性 return links # 示例 url = "http://example.com" webpage_content = get_webpage(url) links = extract_links(webpage_content) ``` 在这个例子中，`extract_links()`函数会返回一个包含网页上所有链接地址的列表。

阅读全文