基于python的爬虫源代码
时间: 2024-05-25 18:08:53 浏览: 153
基于Python的爬虫源代码通常会使用一些第三方库,比如requests、beautifulsoup4、scrapy等。以下是一个简单的基于requests和beautifulsoup4的爬虫代码示例,它可以爬取一个网页上的所有超链接:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://www.example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
links = []
for link in soup.find_all('a'):
href = link.get('href')
if href is not None and href.startswith('http'):
links.append(href)
print(links)
```
以上代码使用requests库发送HTTP GET请求获取网页内容,使用beautifulsoup4库解析HTML文档,然后遍历所有超链接并将其添加到一个列表中。你可以根据需要修改代码以适应不同的网站和需求。
阅读全文