python爬虫例程
时间: 2024-10-30 09:06:28 浏览: 6
Python爬虫(Web Scraper)是指通过编写程序从互联网上抓取信息的过程。下面是一个简单的Python爬虫示例,使用了常见的requests和BeautifulSoup库:
```python
# 导入所需的库
import requests
from bs4 import BeautifulSoup
# 定义目标网址
url = 'https://www.example.com'
# 发送GET请求获取网页内容
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 使用BeautifulSoup解析HTML内容
soup = BeautifulSoup(response.text, 'html.parser')
# 找到需要的数据(这里假设我们找的是所有段落标签)
paragraphs = soup.find_all('p')
# 遍历每个段落并打印内容
for para in paragraphs:
print(para.text)
else:
print(f"请求失败,状态码: {response.status_code}")
```
这个例子中,我们首先发送了一个GET请求获取指定URL的内容,然后解析返回的HTML文档,找到所有的`<p>`(段落)元素,并打印出它们的文字内容。
注意:在实际爬虫项目中,除了基本的HTTP请求和解析步骤外,还需要考虑反爬机制(如robots.txt规则、验证码等),以及遵守网站的使用条款,尊重版权和隐私。
阅读全文