Elasticsearch 分布式搜索与聚合实战

需积分: 0 83 浏览量更新于2024-06-21 收藏 3.54MB PDF 举报

"Elasticsearch-03 分布式搜索引擎学习，重点介绍数据聚合（aggregations）及其在统计分析中的应用，包括桶（Bucket）、度量（Metric）和管道（Pipeline）三种类型的聚合，以及如何通过DSL实现聚合操作。" 在Elasticsearch中，数据聚合是一项强大的功能，它允许用户快速地进行数据统计、分析和运算，无需依赖复杂的SQL查询。在描述中提到，通过聚合，我们可以轻松地找出最受欢迎的手机品牌，计算手机的平均、最高和最低价格，以及查看每月的销售趋势，这些都是Elasticsearch在数据分析领域的显著优势，因为它的查询速度快且能实现近实时搜索效果。 1. **聚合的种类**： - **桶（Bucket）聚合**：将文档分组，如TermAggregation按照文档字段值进行分组，DateHistogram按日期阶梯分组。 - **度量（Metric）聚合**：计算特定值，如Avg求平均值，Max求最大值，Min求最小值，Stats提供多种统计信息。 - **管道（Pipeline）聚合**：基于其他聚合结果进行进一步的聚合，更高级的统计分析。 2. **DSL实现聚合**： - **Bucket聚合**：在示例中，我们统计了酒店品牌的种类，通过`terms`聚合类型和`field`参数指定品牌字段，`size`参数设定返回的分组数量。 - **排序**：默认按照每个Bucket内文档数量（count）降序排列，可自定义`order`属性改变排序方式。 - **限定范围**：聚合通常基于搜索结果进行，通过添加`query`条件来限定聚合的文档范围。在实际应用中，为了确保聚合基于用户的搜索条件，我们需要在DSL请求中加入`query`部分，这将确保聚合仅针对匹配查询条件的文档执行。例如，如果用户搜索特定城市或价格范围的酒店，聚合会基于这些条件给出统计结果。 3. **聚合的深度和复杂性**： - 桶聚合可以嵌套，形成多级分组，如按品牌分组后再按价格区间分组。 - 度量聚合可以用于桶内，计算每个分组的统计信息。 - 管道聚合则可以对桶或度量的输出进行进一步处理，例如计算百分比、比率或标准差。 4. **优化与性能**： - 聚合的性能受到索引结构、数据分布和查询条件的影响，合理的设计和优化是必不可少的。 - 聚合的响应时间与数据量和聚合复杂性成正比，因此在大型数据集上进行复杂聚合时需考虑性能问题。 Elasticsearch的聚合功能是其在大数据分析领域的重要特性，提供了灵活且高效的统计和分析工具，通过DSL语法，开发者可以构建出复杂的查询和分析流程，满足各种业务需求。在实际应用中，应根据具体场景调整和优化聚合策略，确保查询效率和结果的准确性。

代码：



这里调用了IHotelService中的getFilters方法，尚未实现。

在 cn.itcast.hotel.service.IHotelService 中定义新方法：



在 cn.itcast.hotel.service.impl.HotelService 中实现该方法：

@PostMapping("filters")

public Map<String, List<String>> getFilters(@RequestBody RequestParams params){

return hotelService.getFilters(params);

}

Map<String, List<String>> filters(RequestParams params);1

@Override

public Map<String, List<String>> filters(RequestParams params) {

try {

// 1.准备Request

SearchRequest request = new SearchRequest("hotel");

// 2.准备DSL

// 2.1.query

buildBasicQuery(params, request);

// 2.2.设置size

request.source().size(0);

// 2.3.聚合

buildAggregation(request);

// 3.发出请求

SearchResponse response = client.search(request, RequestOptions.DEFAULT);

// 4.解析结果

Map<String, List<String>> result = new HashMap<>();

Aggregations aggregations = response.getAggregations();

// 4.1.根据品牌名称，获取品牌结果

List<String> brandList = getAggByName(aggregations, "brandAgg");

result.put("品牌", brandList);

// 4.2.根据品牌名称，获取品牌结果

List<String> cityList = getAggByName(aggregations, "cityAgg");

result.put("城市", cityList);

// 4.3.根据品牌名称，获取品牌结果

List<String> starList = getAggByName(aggregations, "starAgg");

result.put("星级", starList);

return result;

} catch (IOException e) {

throw new RuntimeException(e);

}

private void buildAggregation(SearchRequest request) {

request.source().aggregation(AggregationBuilders

.terms("brandAgg")

.field("brand")

.size(100)

);

request.source().aggregation(AggregationBuilders

.terms("cityAgg")

.field("city")

.size(100)

);

request.source().aggregation(AggregationBuilders

.terms("starAgg")

.field("starName")

.size(100)

);

}

private List<String> getAggByName(Aggregations aggregations, String aggName) {

// 4.1.根据聚合名称获取聚合结果

Terms brandTerms = aggregations.get(aggName);

// 4.2.获取buckets

List<? extends Terms.Bucket> buckets = brandTerms.getBuckets();

// 4.3.遍历

List<String> brandList = new ArrayList<>();

for (Terms.Bucket bucket : buckets) {

// 4.4.获取key

String key = bucket.getKeyAsString();

brandList.add(key);

}

return brandList;

}

剩余27页未读，继续阅读

hwb_

粉丝: 0
资源: 1

Elasticsearch 分布式搜索与聚合实战

Elasticsearch Server - Third Edition

elasticsearch-2.3.0

day07-Elasticsearch03

springboot整合es-spring-03-elastic.zip

testando-componentes-eventos-react-testing-library-2021-03-12

elasticsearch-test-client

elasticsearch-status-monitor:Elasticsearch Status Monitor是一个开源工具，用于生成包含ES群集概述并列出潜在问题的报告

kata-03-recetario-equipo-03-k03:GitHub教室创建的kata-03-recetario-equipo-03-k03

elasticsearch-7.6.1安装-Linux

elasticsearch-web-export:使用基于 HTTPweb 的界面导出 Elasticsearch 数据

最新资源