Lucene+SOLR+Heritrix垂直搜索引擎开发实战课程

3星 · 超过75%的资源 需积分: 10 177 下载量 157 浏览量 更新于2024-09-10 2 收藏 2KB TXT 举报
Lucene4.6+Solr4.6实战开发垂直搜索引擎视频课程 Lucene4.6和Solr4.6是当前最流行的搜索引擎技术栈,分别是 Apache 项目下的两个子项目,Lucene 是一个高性能的搜索引擎库,而 Solr 是基于 Lucene 的一个搜索引擎服务器。本课程通过实战开发方式,学习如何使用 Lucene4.6 和 Solr4.6 搭建一个垂直搜索引擎。 01.heritrix环境搭建 * Heritrix 是一个开源的网络爬虫,用于抓取和解析网页内容。 * Heritrix 环境搭建需要 Java 环境和 Heritrix 的安装。 02.如何进行主题抓取 * 主题抓取是指根据指定的主题或关键词,抓取相关的网页内容。 * 主题抓取需要使用 Heritrix 的爬虫功能,配置爬虫规则和抓取策略。 03.heritrix优化 * Heritrix 优化是指对 Heritrix 的配置和性能进行优化,提高爬虫效率和抓取速度。 * Heritrix 优化需要了解 Heritrix 的配置文件和爬虫机制。 04.解析html网页 * HTML 是一种标记语言,用于描述网页的结构和内容。 * 解析 HTML 网页需要使用解析器,例如 Jsoup 或者 HtmlParser。 05.中文分词(1-8) * 中文分词是指将中文文本分割成单个词语或短语。 * 中文分词需要使用分词算法和词典,例如 IK 分词器或 AnsJ 分词器。 06.网页去重(1-4) * 网页去重是指删除重复的网页内容,避免搜索引擎索引重复的内容。 * 网页去重需要使用去重算法,例如布隆过滤器或 Hash 值计算。 07.lucene4.6快速搭建 * Lucene4.6 是一个高性能的搜索引擎库。 * Lucene4.6 快速搭建需要了解 Lucene 的基本概念和配置文件。 08.lucene4.6索引的相关操作 * Lucene 索引是指将文档内容转换为搜索引擎可以索引的格式。 * Lucene 索引相关操作需要了解 Lucene 的索引机制和配置文件。 09.lucene4.6的各种Query(1-3) * Lucene Query 是指使用 Lucene 搜索引擎进行搜索的查询语句。 * Lucene Query 需要了解 Lucene 的查询语法和查询机制。 10.solr4.6快速搭建 * Solr4.6 是一个基于 Lucene 的搜索引擎服务器。 * Solr4.6 快速搭建需要了解 Solr 的基本概念和配置文件。 11.solr4.6索引的相关操作 * Solr 索引是指将文档内容转换为搜索引擎可以索引的格式。 * Solr 索引相关操作需要了解 Solr 的索引机制和配置文件。 12.solr4.6搜索的相关参数功能(1-2) * Solr 搜索参数是指影响搜索结果的参数,例如分页、排序和 Facet。 * Solr 搜索参数需要了解 Solr 的搜索机制和配置文件。 13.solr4.6自带zookeeper集群搭建 * Zookeeper 是一个分布式协调服务,用于管理分布式系统。 * Solr4.6 自带 Zookeeper 集群搭建需要了解 Zookeeper 的基本概念和配置文件。 14.搜索框架搭建(1-19) * 搜索框架搭建是指使用 Lucene 和 Solr 构建一个搜索引擎框架。 * 搜索框架搭建需要了解 Lucene 和 Solr 的基本概念和配置文件。 15.项目分析及框架选择 * 项目分析是指对项目需求和技术架构进行分析和设计。 * 框架选择需要了解项目需求和技术架构。 16.struts 2.3.16简介 * Struts2 是一个基于 MVC 模式的 Web 框架。 * Struts2 简介需要了解 Struts2 的基本概念和配置文件。 17.struts 2.3.16整合spring 4.0.1 * Spring 是一个轻量级的 Java 框架,用于简化 Java 开发。 * Struts2 整合 Spring 需要了解 Struts2 和 Spring 的基本概念和配置文件。 18.spring 4.0.1整合hibernate 4.3.1 * Hibernate 是一个基于 ORM 模式的持久层框架。 * Spring 整合 Hibernate 需要了解 Spring 和 Hibernate 的基本概念和配置文件。 19.搜索引擎实战(1-18) * 搜索引擎实战是指使用 Lucene 和 Solr 构建一个搜索引擎系统。 * 搜索引擎实战需要了解 Lucene 和 Solr 的基本概念和配置文件。