用python爬取百度文库
时间: 2023-12-15 20:06:08 浏览: 177
爬取百度文库是一种比较复杂的操作,需要模拟登录和翻页等,下面给出一个简单的爬虫示例代码:
```python
import requests
from bs4 import BeautifulSoup
# 登录百度文库
session = requests.session()
login_url = "https://passport.baidu.com/v2/?login"
data = {"username": "your_username", "password": "your_password"}
session.post(login_url, data=data)
# 爬取文档内容
doc_url = "https://wenku.baidu.com/view/your_doc_id.html"
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}
response = session.get(doc_url, headers=headers)
soup = BeautifulSoup(response.text, "lxml")
content = ""
for p in soup.find_all("p", class_="reader-word-layer"):
content += p.text
print(content)
```
其中,需要替换的部分为:
- `your_username` 和 `your_password`:替换成你的百度账号和密码。
- `your_doc_id`:替换成你想要爬取的文档的 ID。
该示例代码只能爬取一篇文档的内容,如果需要爬取多篇文档,需要添加翻页逻辑。
阅读全文