写一个爬取资料的小程序,爬取大规模储能技术这本书
时间: 2024-01-21 14:16:58 浏览: 73
以下是一个简单的Python爬虫程序,可以爬取《大规模储能技术》这本书的目录和章节内容:
```python
import requests
from bs4 import BeautifulSoup
# 目标网页链接
url = 'https://www.bookschina.com/1033755.htm'
# 发送GET请求并获取页面HTML代码
response = requests.get(url)
html = response.content
# 使用BeautifulSoup解析HTML代码
soup = BeautifulSoup(html, 'html.parser')
# 获取章节标题和链接
chapters = soup.find_all('div', {'class': 'list_title'})
for chapter in chapters:
title = chapter.text.strip()
link = chapter.find('a')['href']
print(title, link)
# 发送GET请求并获取章节内容
response = requests.get(link)
html = response.content
soup = BeautifulSoup(html, 'html.parser')
# 获取章节内容
content = soup.find('div', {'class': 'book_view'})
print(content.text.strip())
```
请注意,这只是一个简单的示例程序,可能无法完全爬取整本书的内容。如果需要爬取更多的内容,可能需要更复杂的程序和技术。同时,请尽量遵守网站的使用规则和法律法规,不要进行非法爬取和其他违法行为。
阅读全文