首页用python爬取百度文库

用python爬取百度文库

时间: 2023-12-15 08:06:08 浏览: 190

爬取百度文库是一种比较复杂的操作，需要模拟登录和翻页等，下面给出一个简单的爬虫示例代码： ```python import requests from bs4 import BeautifulSoup # 登录百度文库 session = requests.session() login_url = "https://passport.baidu.com/v2/?login" data = {"username": "your_username", "password": "your_password"} session.post(login_url, data=data) # 爬取文档内容 doc_url = "https://wenku.baidu.com/view/your_doc_id.html" headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"} response = session.get(doc_url, headers=headers) soup = BeautifulSoup(response.text, "lxml") content = "" for p in soup.find_all("p", class_="reader-word-layer"): content += p.text print(content) ``` 其中，需要替换的部分为： - `your_username` 和 `your_password`：替换成你的百度账号和密码。 - `your_doc_id`：替换成你想要爬取的文档的 ID。该示例代码只能爬取一篇文档的内容，如果需要爬取多篇文档，需要添加翻页逻辑。

阅读全文