python爬虫常用代码
时间: 2024-09-19 14:14:29 浏览: 48
Python爬虫常用的代码通常涉及以下几个库和步骤:
1. **BeautifulSoup** 或 **Scrapy**: 这两个库用于解析HTML文档,BeautifulSoup更适合简单网页,而Scrapy是一个强大的框架,适合处理大型网站。
```python
from bs4 import BeautifulSoup
import requests
url = 'http://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
data = soup.find_all('div', class_='target') # 查找特定标签
```
2. **Requests**: 请求库用于发送HTTP请求获取网页内容。
```python
import requests
response = requests.get('https://www.example.com')
content = response.text
```
3. **Selenium**: 如果需要模拟浏览器操作或者动态加载的内容,可以使用Selenium配合WebDriver。
```python
from selenium import webdriver
driver = webdriver.Chrome() # 需要先安装对应浏览器的驱动
driver.get('https://www.example.com')
page_source = driver.page_source
```
4. **Pandas**: 数据抓取后,常会存储到数据结构如DataFrame中,pandas方便数据分析。
```python
import pandas as pd
data_df = pd.read_html('table.html') # 从网页读取表格
```
5. **Cookies、Session和代理**:处理登录信息或者隐藏身份时可能会用到。
```python
from requests.cookies import RequestsCookieJar
jar = RequestsCookieJar()
jar.set('cookie_name', 'value')
# 或者保存cookies到文件
with open('cookies.txt', 'w') as f:
f.write(str(jar))
session = requests.Session()
session.cookies = jar
```
阅读全文