![](https://csdnimg.cn/release/download_crawler_static/87831192/bg7.jpg)
MaxCompute
技术白皮书 / 1 什么是MaxCompute
1 什么是MaxCompute
1.1 产品概述
大数据计算服务(MaxCompute)是基于飞天操作系统分布式平台,由阿里云自主研发的海量数据
离线处理服务。MaxCompute提供针对TB/PB级别数据、实时性要求不高的批量处理能力,主要应
用于日志分析、机器学习、数据仓库、数据挖掘、商业智能等领域。
MaxCompute的目的是为用户提供一种便捷的分析处理海量数据的手段。用户可以不必关心分布式
计算细节,从而达到分析大数据的目的。MaxCompute已经在阿里巴巴集团内部得到大规模的应
用,例如:大型互联网企业的数据仓库和BI分析、网站的日志分析、电子商务网站的交易分析、用
户特征和兴趣挖掘等。
MaxCompute具体支持如下的相关功能:
• 数据通道。
-
Tunnel:提供高并发的离线数据上传和下载服务。用户可以使用Tunnel服务向MaxCompute
批量上传数据,或者将数据从MaxCompute下载到本地。Tunnel仅提供Java编程接口供用户
使用。
-
DataHub:向用户提供数据的实时上传和下载的功能。与Tunnel服务不同,通过DataHub上
传的数据会即刻在用户数据中体现。
• 计算及分析任务。
-
SQL:MaxCompute只能以表的形式存储数据,并且对外提供了SQL查询功能。用户可以
将MaxCompute作为传统的数据库软件操作,但其却能处理TB、PB级别的海量数据。需要
注意,MaxCompute SQL不支持事务、索引及Update/Delete等操作。同时MaxCompute的
SQL语法与Oracle、MySQL有一定差别,用户无法将其他数据库中的SQL语句无缝迁移到
MaxCompute上来。此外,在使用方式上,MaxCompute SQL最快可以在分钟或者秒级别完
成查询,无法在毫秒级别返回查询结果。MaxCompute SQL的优点体现在用户的学习成本
低,用户不需要了解分布式概念,具备数据库操作经验的用户可以快速熟悉MaxCompute
SQL的使用。
-
MapReduce:MapReduce最早是由Google提出的分布式数据处理模型,随后受到了业内的
广泛关注,并被大量应用到各种商业场景中。在本文档中,会对MapReduce模型做简要介
文档版本:20190124
1