爬取http://www.ptpress.com.cn的推荐图书信息,包括bookName, Bookid,并存到MongoDB数据库中。
时间: 2024-10-15 22:28:10 浏览: 40
爬取网页数据并存储到MongoDB通常需要几个步骤,包括网络请求、HTML解析以及数据库操作。这里我会给出一个简化的Python示例,使用requests库进行HTTP请求,BeautifulSoup处理HTML内容,pymongo操作MongoDB:
```python
import requests
from bs4 import BeautifulSoup
from pymongo import MongoClient
# 连接MongoDB
client = MongoClient('mongodb://localhost:27017/')
db = client['your_database_name'] # 替换为你的数据库名
collection = db['books_collection'] # 替换为你要保存数据的集合名
def get_book_info(url):
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')
book_list = soup.find_all('div', class_='recommend-books') # 根据网站结构查找书籍信息区域
for book in book_list:
book_name = book.find('a', class_='title').text.strip() # 提取书名
book_id = book.find('span', itemprop='isbn')['content'] # 提取BookId
data = {
"bookName": book_name,
"Bookid": book_id
}
collection.insert_one(data) # 插入数据到MongoDB
# 调用函数并传入URL
get_book_info('http://www.ptpress.com.cn')
#
阅读全文