头歌爬虫实战——网页抓取及信息提取 第二关:提取子链接
时间: 2023-11-24 16:08:34 浏览: 657
网络爬虫爬取网页链接
4星 · 用户满意度95%
在实现子链接提取之前,我们需要先获取到网页的 HTML 代码。可以使用 Python 的 requests 库来获取 HTML 代码:
```python
import requests
url = 'https://www.example.com'
response = requests.get(url)
html = response.text
```
获取到 HTML 后,我们可以使用 Beautiful Soup 库来解析 HTML,并提取子链接:
```python
from bs4 import BeautifulSoup
import requests
url = 'https://www.example.com'
response = requests.get(url)
html = response.text
soup = BeautifulSoup(html, 'html.parser')
links = []
for link in soup.find_all('a'):
href = link.get('href')
if href.startswith('http'):
links.append(href)
print(links)
```
上述代码中,我们首先使用 Beautiful Soup 解析 HTML,然后查找 HTML 中所有的 `<a>` 标签,获取标签中的 `href` 属性,并判断是否为子链接。最后将符合条件的子链接添加到列表 `links` 中并输出。
注意,这里只是一个简单的示例,实际情况下需要根据具体需求进行修改。例如,可以添加对子链接的去重、筛选等操作。
阅读全文