如何爬取网页里的超链接
时间: 2024-12-24 14:37:05 浏览: 11
要爬取网页上的超链接,可以使用Python的`urllib.request`库配合`BeautifulSoup`库来实现。下面是一个简单的步骤:
1. 导入所需的库:
```python
from urllib.request import urlopen
from bs4 import BeautifulSoup
```
2. 使用`urlopen`获取网页内容:
```python
url = 'https://blog.csdn.net/zzc15806/' # 目标网址
html = urlopen(url)
```
3. 解析网页内容并找到超链接:
```python
soup = BeautifulSoup(html, 'html.parser')
hyperlink = soup.find_all('a') # 获取所有超链接元素
```
4. 过滤并保存有用链接(这里假设我们只关心博客文章链接):
```python
file = open('./blog_links.txt', 'w') # 创建或打开保存文件
for h in hyperlink:
href = h.get('href') # 获取每个链接的href属性
if href and '/article/details/' in href and '#comments' not in href: # 检查链接是否符合条件
print(href) # 打印筛选后的链接
file.write(href + '\n') # 写入文件
file.close()
```
通过这个示例,你可以抓取指定网站上的博客链接,并将其保存到文本文件中。如果你只想看打印出来的结果而不保存,可以省略`file.write()`部分。
阅读全文