"ElasticSearch基本原理及分布式环境搭建：高扩展的全文检索引擎"

需积分: 0 76 浏览量更新于2024-01-20 收藏 1.04MB PDF 举报

ElasticSearch是一个基于开源的、高度扩展的分布式全文检索引擎，它使用Java开发并且集成了Lucene核心来实现所有索引和搜索功能。其主要目的是通过简单的RESTful API来隐藏Lucene的复杂性，从而使全文搜索变得更加简单。ElasticSearch具有极好的扩展性，可以轻松地扩展到上百台服务器，并处理PB级别的数据。它可以实时存储和检索数据，适用于各种规模的应用场景。 ElasticSearch的应用范围非常广泛。例如，GitHub在2013年初就抛弃了Solr，转而采用ElasticSearch来进行PB级的搜索。他们使用ElasticSearch来搜索20TB的数据，包括13亿文件和1300亿行代码。另外，SoundCloud也使用ElasticSearch为其1.8亿用户提供即时而精准的音乐搜索服务。百度也广泛使用ElasticSearch作为文本数据分析工具，用于采集各种服务器上的指标数据及用户自定义数据，并通过多维分析展示给用户。 ElasticSearch的安装和启动非常简单。用户只需下载并解压安装包，然后运行相应的脚本即可启动ElasticSearch。在启动后，用户可以通过HTTP请求进行索引和搜索操作，保证了便利性的同时也提供了强大的功能。除了基本原理外，还有一些重要的概念需要了解。例如，索引（Index）是ElasticSearch中的一个非常关键的概念，它类似于数据库中的数据库。文档（Document）是索引中的一个最小单元，可以是任何类型的数据。字段（Field）是文档中的属性，每个文档都包含一个或多个字段。类型（Type）是索引内部的逻辑分区，它可以帮助用户区分数据。分片（Shard）是索引的物理分区，用于分散数据并提高性能。副本（Replica）是分片的复制，用于提高可用性。在分布式环境下，ElasticSearch的搭建也非常重要。它可以通过水平扩展来分布在多个节点上，充分利用多台服务器的计算和存储资源。在分布式环境下，ElasticSearch可以通过集群(Cluster)来协调各个节点的工作，确保数据的一致性和高可用性。此外，还可以使用负载均衡器来均衡各个节点的负载，提高整个系统的性能和稳定性。总之，ElasticSearch是一个功能强大、性能优异的全文搜索引擎，适用于各种规模的应用场景。其简单的安装和启动流程以及丰富的相关术语和分布式环境搭建，使得它成为了目前广泛应用于各种企业和项目中的搜索引擎。

3.2 Elasticsearch核心概念

3.2.1 索引 index

一个索引就是一个拥有几分相似特征的文档的集合。比如说，你可以有一个客户数据的索引，

另一个产品目录的索引，还有一个订单数据的索引。一个索引由一个名字来标识（必须全部是小写字母

的），并且当我们要对对应于这个索引中的文档进行索引、搜索、更新和删除的时候，都要使用到这个

名字。在一个集群中，可以定义任意多的索引。

3.2.2 类型 type

在一个索引中，你可以定义一种或多种类型。一个类型是你的索引的一个逻辑上的分类/分

区，其语义完全由你来定。通常，会为具有一组共同字段的文档定义一个类型。比如说，我们假设你运

营一个博客平台并且将你所有的数据存储到一个索引中。在这个索引中，你可以为用户数据定义一个类

型，为博客数据定义另一个类型，当然，也可以为评论数据定义另一个类型。

3.2.3 字段**Field**

相当于是数据表的字段，对文档数据根据不同属性进行的分类标识

3.2.4 映射 mapping

mapping是处理数据的方式和规则方面做一些限制，如某个字段的数据类型、默认值、分析

器、是否被索引等等，这些都是映射里面可以设置的，其它就是处理es里面数据的一些使用规则设置也

叫做映射，按着最优规则处理数据对性能提高很大，因此才需要建立映射，并且需要思考如何建立映射

才能对性能更好。

3.2.5 文档 document

一个文档是一个可被索引的基础信息单元。比如，你可以拥有某一个客户的文档，某一个产品

的一个文档，当然，也可以拥有某个订单的一个文档。文档以JSON（Javascript Object Notation）格

式来表示，而JSON是一个到处存在的互联网数据交互格式。在一个index/type里面，你可以存储任意

多的文档。注意，尽管一个文档，物理上存在于一个索引之中，文档必须被索引/赋予一个索引的

type。

3.2.6 接近实时 NRT

Elasticsearch是一个接近实时的搜索平台。这意味着，从索引一个文档直到这个文档能够被搜

索到有一个轻微的延迟（通常是1秒以内）

3.2.7 集群 cluster

Relational DB ‐> Databases ‐> Tables ‐> Rows ‐> Columns

Elasticsearch ‐> Indices ‐> Types ‐> Documents ‐> Fields

一个集群就是由一个或多个节点组织在一起，它们共同持有整个的数据，并一起提供索引和搜索功能。

一个集群由一个唯一的名字标识，这个名字默认就是“elasticsearch”。这个名字是重要的，因为一个节

点只能通过指定某个集群的名字，来加入这个集群

3.2.8 节点 node

一个节点是集群中的一个服务器，作为集群的一部分，它存储数据，参与集群的索引和搜索功

能。和集群类似，一个节点也是由一个名字来标识的，默认情况下，这个名字是一个随机的漫威漫画角

色的名字，这个名字会在启动的时候赋予节点。这个名字对于管理工作来说挺重要的，因为在这个管理

过程中，你会去确定网络中的哪些服务器对应于Elasticsearch集群中的哪些节点。一个节点可以通过

配置集群名称的方式来加入一个指定的集群。默认情况下，每个节点都会被安排加入到一个叫做

“elasticsearch”的集群中，这意味着，如果你在你的网络中启动了若干个节点，并假定它们能够相互发

现彼此，它们将会自动地形成并加入到一个叫做“elasticsearch”的集群中。在一个集群里，只要你想，

剩余22页未读，继续阅读

曹将

粉丝: 26
资源: 308

"ElasticSearch基本原理及分布式环境搭建：高扩展的全文检索引擎"

Elasticsearch.Net使用入门教程（1）

Elasticsearch入门指南：分布式搜索服务器解析

Elasticsearch深度解析：分布式搜索与索引管理

Elasticsearch深度解析：分布式搜索与高级配置

Scrapy进阶：分布式爬虫搭建

Elasticsearch初探：分布式搜索引擎的魅力

Elasticsearch中的分布式搜索与数据分片技术

分布式微服务电商系统搭建

Elasticsearch入门与实战：简单高效全文搜索与分布式存储

Elasticsearch中文版全面指南：安装、搜索与分布式管理

最新资源