python爬虫代码演示
时间: 2024-10-26 16:01:21 浏览: 17
Python爬虫是一种通过自动化程序从互联网上抓取数据的技术。这里简单展示一个使用Python基础库`requests`和`BeautifulSoup`编写的简单网页爬虫示例,它将抓取HTML页面上的链接:
```python
# 导入所需的库
import requests
from bs4 import BeautifulSoup
def web_scraper(url):
# 发送GET请求获取网页内容
response = requests.get(url)
# 检查请求是否成功 (HTTP状态码200表示成功)
if response.status_code == 200:
# 使用BeautifulSoup解析HTML内容
soup = BeautifulSoup(response.text, 'html.parser')
# 找到所有的链接标签 (这里是<a>)
links = soup.find_all('a')
for link in links:
href = link.get('href') # 获取链接地址
print(href) # 输出链接
# 调用函数并传递目标网站URL
web_scraper('https://www.example.com')
```
这个例子中,我们首先发送一个GET请求到指定URL,然后解析返回的HTML内容,找到所有`<a>`标签(即超链接),并打印出它们的`href`属性。
阅读全文