爬取百度文库里的文本的python代码实现
时间: 2023-12-15 07:05:51 浏览: 158
Python实现的爬取百度文库功能示例
以下是使用 Python 和 requests 库爬取百度文库文本的示例代码:
``` python
import requests
from bs4 import BeautifulSoup
# 文库的 URL 地址
url = 'https://wenku.baidu.com/view/xxxxx.html'
# 设置请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 发送请求并获取响应内容
response = requests.get(url, headers=headers)
content = response.content
# 解析 HTML 页面
soup = BeautifulSoup(content, 'html.parser')
# 获取文本内容
text_list = soup.find_all('div', {'class': 'reader-word-layer'})
text = ''
for t in text_list:
text += t.text
# 输出文本内容
print(text)
```
其中,需要将 `url` 变量中的 `xxxxx` 替换为需要爬取的文库页面的 ID。此外,需要安装 requests 和 BeautifulSoup 库,可通过以下命令安装:
``` python
pip install requests
pip install beautifulsoup4
```
阅读全文