MongoDB Aggregation框架实战：Python与Java示例解析

5星 · 超过95%的资源 67 浏览量更新于2024-08-31 收藏 86KB PDF 举报

MongoDB的Aggregation框架是其数据库系统中的一个重要组成部分，它提供了强大的数据分析能力，适用于各种复杂的统计和聚合操作。在MongoDB中，Aggregation允许开发者通过一系列的管道（pipeline）阶段来处理数据，每个阶段都可以执行特定的操作，如过滤、转换、分组、排序等。 1. **$project**: 此阶段用于字段选择和重命名。你可以通过`$project`来指定哪些字段应该在结果集中出现，以及如何重命名或计算新的字段。例如，如果你有一个文档包含多个子文档，你可以通过`$project`提取特定子文档的字段。 2. **$match**: 这个阶段用于过滤数据，类似于SQL中的`WHERE`子句。你可以设置条件来筛选出满足条件的文档。 3. **$limit** 和 **$skip**: `$limit`用于限制返回的文档数量，而`$skip`则用于跳过指定数量的文档。这两个操作在处理大量数据时尤其有用，但要注意`$skip`在性能上不如`$limit`，因为它仍需遍历被跳过的文档。 4. **$unwind**: 用于将包含数组的文档展开为多个单独的文档。每个新文档都是原文档的一个副本，但是数组字段被替换为单个值。这对于对数组中的每个元素进行独立处理非常有用。 5. **$group**: 这是聚合操作的核心，它允许根据一个或多个字段对文档进行分组，并执行各种统计计算，如`$sum`（求和）、`$avg`（平均值）、`$min`（最小值）、`$max`（最大值）等。此外，还可以使用`$push`、`$addToSet`等操作累积数组。 6. **$sort**: 此阶段用于对结果集进行排序，可以根据一个或多个字段指定升序或降序。在Python中，我们可以使用`pymongo`库来调用这些聚合操作。例如，在提供的Python代码中，创建了一个学生数据集，然后可以使用`aggregate`方法进行统计分析，例如按省份分组计算学生的平均年龄，或者找出年龄最大的学生等。 ```python pipeline = [ {"$match": {"province": "guangdong"}}, {"$group": {"_id": "$province", "avg_age": {"$avg": "$age"}}}, ] results = sm.aggregate(pipeline) for result in results: print(result) ``` 类似地，Java开发者可以使用`MongoCollection.aggregate()`方法来执行聚合操作。 MongoDB的Aggregation框架提供了一套全面的数据处理工具，使得开发者能够在数据库级别进行复杂的数据分析和统计，而无需将数据拉取到应用层处理，从而提高了效率和性能。对于处理大量结构化和半结构化数据的应用，尤其是那些需要实时分析的场景，Aggregation框架是不可或缺的。

MongoDB中强大的统计框架中强大的统计框架Aggregation使用实例解析使用实例解析

主要介绍了MongoDB中强大的统计框架Aggregation使用实例解析,文中举了Python和Java使用Aggregation的数据统计例子进行讲解,需要的朋友可以参

考下

听说项目里面Aggregation用的多，那就专门针对这个多多练习一下。

基本的操作包括：

•$project - 可以从子文档中提取字段，可以重命名字段

•$match - 可以实现查找的功能

•$limit - 接受一个数字n，返回结果集中的前n个文档。

•$skip - 接受一个数字n，丢弃结果集中的前n个文档。效率比较低，依然会遍历前n个文档。

•$unwind - 可以将一个包含数组的文档切分成多个, 比如你的文档有中有个数组字段 A, A中有10个元素, 那么经过 $unwind处理后会产生10个文档，这些文档只有字段 A

不同

•$group - 统计操作，还提供了一系列子命令

–$avg, $sum …

•$sort - 排序

Python篇篇

实验一、学生数据统计实验一、学生数据统计

1、生成学生数据：

#!/usr/bin/env python

# coding=utf-8

from pymongo import MongoClient

from random import randint

name1 = ["yang ", "li ", "zhou "]

name2 = [

"chao",

"hao",

"gao",

"qi gao",

"hao hao",

"gao gao",

"chao hao",

"ji gao",

"ji hao",

"li gao",

"li hao",

]

provinces = [

"guang dong",

"guang xi",

"shan dong",

"shan xi",

"he nan"

]

client = MongoClient('localhost', 27017)

db = client.student

sm = db.smessage

sm.remove()

for i in range(1, 100):

name = name1[randint(0, 2)] + name2[randint(0, 10)]

province = provinces[randint(0, 4)]

new_student = {

"name": name,

"age": randint(1, 30),

"province": province,

"subject": [

{"name": "chinese", "score": randint(0, 100)},

{"name": "math", "score": randint(0, 100)},

{"name": "english", "score": randint(0, 100)},

{"name": "chemic", "score": randint(0, 100)},

]}

print new_student

sm.insert_one(new_student)

print sm.count()

好了，现在数据库里面有100条学生数据了。

现在我要得到广东学生的平均年龄，在mongo控制台输入：

如果想到得到所有省份的平均年龄，那就更加简单了：

db.smessage.aggregate(

{$match: {province: "guang dong"}}

)

{ "_id" : "guang xi", "age" : 15.19047619047619 }

{ "_id" : "guang dong", "age" : 16.05263157894737 }

{ "_id" : "shan dong", "age" : 17.44 }

{ "_id" : "he nan", "age" : 20 }

{ "_id" : "shan xi", "age" : 16.41176470588235 }

如果想得到广东省所有科目的平均成绩：

db.smessage.aggregate(

{$match: {province: "guang dong"}},

{$unwind: "$subject"},

{$group: { _id: {province:"$province",sujname:"$subject.name"}, per:{$avg:"$subject.score"}}}

)

加上排序：

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38701952

粉丝: 5
资源: 977

MongoDB Aggregation框架实战：Python与Java示例解析

mongodb aggregation运用例子

mongodb中文API及分布式分片实例详解

spring_mongodb_aggregation_grouping:这是一个用于在mongodb中显示聚合分组的简单项目

Spring整合mongodb详解

mongodb-spring 整合包

chatchina:适用于MongoDB的NodeJS

SpringSource-spring-data-document-examples-1.0.0.M4-MongoDB-Examples

MongoDB操作手册：深入语法用法解析

Spring与MongoDB集成深度解析

MongoDB权威指南：深入解析与实践

最新资源