爬虫爬取百度文库文档
时间: 2023-09-08 11:13:04 浏览: 162
你可以使用Python的爬虫库来爬取百度文库文档。下面是一个简单的示例代码,你可以根据自己的需求进行修改和优化:
```python
import requests
from bs4 import BeautifulSoup
def download_doc(url, save_path):
# 发送HTTP请求
response = requests.get(url)
# 解析HTML
soup = BeautifulSoup(response.content, 'html.parser')
# 查找文档内容
doc_content = soup.find('div', {'class': 'doc-content'})
# 将文档内容写入文件
with open(save_path, 'w', encoding='utf-8') as f:
f.write(doc_content.text)
# 示例使用:爬取文档URL为https://wenku.baidu.com/view/xxx 的文档
doc_url = 'https://wenku.baidu.com/view/xxx'
save_path = 'document.txt'
download_doc(doc_url, save_path)
```
在上述代码中,我们使用了`requests`库发送HTTP请求,并使用`BeautifulSoup`库解析HTML内容。我们通过查找特定的HTML标签和类名来定位文档内容,并将其写入文件。你只需要将`doc_url`替换为你要爬取的百度文库文档的URL,将`save_path`替换为你想要保存的文件路径即可。
请注意,爬取网站内容时需要遵守相关法律法规和网站的使用协议,确保你的行为合法合规。
阅读全文