写一个用Python爬取百度文库资料的代码
时间: 2024-03-07 18:53:21 浏览: 125
基于Python的百度百科爬虫+源代码+文档说明
好的,以下是一个简单的Python爬取百度文库资料的代码示例:
```python
import requests
from bs4 import BeautifulSoup
# 要爬取的文库页面URL
url = 'https://wenku.baidu.com/view/xxx.html'
# 设置请求头,模拟浏览器访问
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 发送请求,获取页面内容
response = requests.get(url, headers=headers)
html = response.content
# 使用BeautifulSoup解析页面内容,获取文本
soup = BeautifulSoup(html, 'lxml')
text = soup.get_text()
# 将文本保存到本地文件中
with open('output.txt', 'w', encoding='utf-8') as f:
f.write(text)
```
其中,需要将 `url` 替换为要爬取的百度文库页面的URL,然后使用 `requests` 发送请求,将得到的页面内容传递给 `BeautifulSoup` 对象进行解析,最后获取文本并保存到本地文件中。请注意,由于百度文库对于未登录用户可能会有访问限制,因此在实际使用时需要根据需要进行登录以及其他相关处理。
阅读全文