首页python爬虫爬取登录网站

python爬虫爬取登录网站

时间: 2023-11-12 17:56:45 浏览: 50

要爬取需要登录的网站，一般需要模拟登录。可以使用 Python 的 requests 库和 BeautifulSoup 库来实现。具体步骤如下： 1. 发送 GET 请求获取登录页面，获取登录所需的参数（如 csrf_token）。 2. 构造 POST 请求，将用户名、密码等参数以及上一步获取的 csrf_token 提交给服务器。 3. 如果登录成功，服务器会返回一个包含登录信息的 cookie，将其保存下来。 4. 使用保存的 cookie 发送请求获取需要爬取的页面。以下是示例代码： ```python import requests from bs4 import BeautifulSoup # 构造会话对象 session = requests.Session() # 发送 GET 请求获取登录页面 login_url = 'https://example.com/login' response = session.get(login_url) # 解析页面获取登录所需参数 soup = BeautifulSoup(response.text, 'html.parser') csrf_token = soup.find('input', {'name': 'csrf_token'})['value'] # 构造 POST 请求提交登录信息 username = 'your_username' password = 'your_password' data = { 'username': username, 'password': password, 'csrf_token': csrf_token } session.post(login_url, data=data) # 使用保存的 cookie 发送请求获取需要爬取的页面 target_url = 'https://example.com/target_page' response = session.get(target_url) ```