Node.js + jade + MongoDB + Mongoose：爬虫入库与静态文件生成实践

147 浏览量更新于2024-08-30 收藏 630KB PDF 举报

本文主要介绍了如何使用Node.js、Jade、MongoDB和Mongoose来实现一个爬虫系统，该系统将抓取博客文章并将其分离入库与生成静态HTML文件。作者选择MongoDB作为数据库的原因在于其基于文档的数据模型，与Node.js和DOM解析库cheerio有很好的兼容性，数据操作简便且性能出色。MongoDB支持JSON格式，便于cheerio解析后的数据直接存储，无需额外处理。在实际的爬虫项目中，作者遵循“先入库后生成”的原则，将爬虫功能拆分为两个模块：`crawler.js`负责数据采集和入库，`makeHtml.js`负责根据入库数据生成静态HTML文件。`crawler.js`模块中： 1. 引入了必要的模块，如http、cheerio、mongoose等，并设置了MongoDB连接。 2. 定义了一个名为`aList`的数组用于存储文章信息，以及`aUrl`数组保存文章链接。 3. 建立到MongoDB的连接，并监听连接状态，确保成功后再进行后续操作。 4. 定义了一个名为`arcSchema`的文章数据结构，包含了文章ID、标题、链接、内容、摘要和发布时间等字段。 5. 使用`mongoose.model`创建了一个名为`Article`的模型，用于操作数据库中的文章集合。 `makeHtml.js`模块则会根据`Article`模型查询到的数据动态生成HTML文件，通过模板引擎Jade渲染，将文章内容以静态页面的形式呈现。这种方法有助于提高网站性能，减少服务器负载，并且可以灵活地按需生成或更新静态文件。本文的重点在于实战应用，而不涉及基础的MongoDB教程，因此作者计划在后续的文章中深入讲解MongoDB的基本用法。整体来说，这个方案展示了如何利用Node.js、Jade、Mongoose等工具有效地进行数据抓取、存储和静态文件生成，适合那些希望学习如何构建高效爬虫系统的开发者参考。

Node.js+jade+mongodb+mongoose实现爬虫分离入库与生成静态文件的方法实现爬虫分离入库与生成静态文件的方法

接着这篇文章Node.js+jade抓取博客所有文章生成静态html文件的实例继续，在这篇文章中实现了采集与静态文件的生成，在实际的采集项目中，应该是先入库再选择性的生成静态文

件。

那么我选择的数据库是mongodb,为什么用这个数据库，因为这个数据库是基于集合，数据的操作基本是json，与dom模块cheerio具有非常大的亲和力，cheerio处理过滤出来的数据，

可以直接插入mongodb,不需要经过任何的处理，非常的便捷，当然跟node.js的亲和力那就不用说了，更重要的是，性能很棒。这篇文章我就不具体写mongodb的基本用法，到时候会

另起文章从0开始写mongodb基本常用用法.先看下入库的效果与生成静态文件的效果:

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38674883

粉丝: 3
资源: 943

Node.js + jade + MongoDB + Mongoose：爬虫入库与静态文件生成实践

基于vue+node.js+mongodb开发的新闻管理发布系统源码.zip

基于Node.js + Express + MongoDB实现的电商后台管理系统.zip

ToDoApp:React.js + Node.js + MongoDB

vue博客：: Vue.js + Node.js + Mongodb前一级分离的个人博客

利用Vue.js+Node.js+MongoDB实现一个博客系统（附源码）

vue.js+Node.js+mongodb制作的一个实现了基本功能的学生宿舍管理系统.zip

StudentDormitoryManagementSystem:vue.js + Node.js + mongodb制作的一个实现了基本功能的学生宿舍管理系统

node-react-mongo-auth：简单的应用程序Node.js + Express.js + MongoDB身份验证API和React Js客户端

expressjs-mongodb-crud:完整的Express.js + Node.js + MongoDB CRUD和REST骨架

node.js+express+typeScript+mongodb搭建个人博客系统.zip

最新资源