python爬虫基本代码
时间: 2024-04-23 07:20:28 浏览: 204
Python爬虫是一种用于自动化获取互联网上数据的技术。下面是Python爬虫的基本代码结构:
1. 导入所需的库:
```python
import requests
from bs4 import BeautifulSoup
```
2. 发送HTTP请求并获取页面内容:
```python
url = "http://example.com" # 要爬取的网页URL
response = requests.get(url)
```
3. 解析页面内容:
```python
soup = BeautifulSoup(response.text, "html.parser")
```
4. 提取所需的数据:
```python
# 通过标签名提取数据
data = soup.find("tag_name").text
# 通过CSS选择器提取数据
data = soup.select("css_selector").text
# 通过XPath提取数据(需要安装lxml库)
data = soup.xpath("xpath_expression").text
```
5. 存储或处理数据:
```python
# 存储到文件
with open("data.txt", "w", encoding="utf-8") as file:
file.write(data)
# 处理数据
processed_data = process_data(data)
```
以上是Python爬虫的基本代码结构,你可以根据具体需求进行修改和扩展。
阅读全文