首页python爬虫常用代码

python爬虫常用代码

时间: 2024-09-19 09:14:29 浏览: 53

Python爬虫常用的代码通常涉及以下几个库和步骤： 1. **BeautifulSoup** 或 **Scrapy**: 这两个库用于解析HTML文档，BeautifulSoup更适合简单网页，而Scrapy是一个强大的框架，适合处理大型网站。 ```python from bs4 import BeautifulSoup import requests url = 'http://example.com' response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') data = soup.find_all('div', class_='target') # 查找特定标签 ``` 2. **Requests**: 请求库用于发送HTTP请求获取网页内容。 ```python import requests response = requests.get('https://www.example.com') content = response.text ``` 3. **Selenium**: 如果需要模拟浏览器操作或者动态加载的内容，可以使用Selenium配合WebDriver。 ```python from selenium import webdriver driver = webdriver.Chrome() # 需要先安装对应浏览器的驱动 driver.get('https://www.example.com') page_source = driver.page_source ``` 4. **Pandas**: 数据抓取后，常会存储到数据结构如DataFrame中，pandas方便数据分析。 ```python import pandas as pd data_df = pd.read_html('table.html') # 从网页读取表格 ``` 5. **Cookies、Session和代理**：处理登录信息或者隐藏身份时可能会用到。 ```python from requests.cookies import RequestsCookieJar jar = RequestsCookieJar() jar.set('cookie_name', 'value') # 或者保存cookies到文件 with open('cookies.txt', 'w') as f: f.write(str(jar)) session = requests.Session() session.cookies = jar ```

阅读全文