SAP与Spark：构建大数据的企业级框架

需积分: 16 140 浏览量更新于2024-09-09 收藏 652KB PDF 举报

" Delivering the Enterprise Fabric for Big Data - Aiaz Kazi" 本文主要讨论了如何构建企业级的大数据架构，特别是在大数据处理领域的重要技术——Apache Spark。2014年的Spark Summit是Spark开发者和用户的盛会，它展示了Spark及其相关组件（如Shark、Spark流媒体）在各种应用中的潜力和未来发展趋势。 Aiaz Kazi，SAP的SVP，平台策略与采用负责人，强调了企业级大数据处理的关键需求。他认为大数据不仅仅是大量数据，而是涵盖了深度、速度、广度和简单性等多个方面。大数据环境要求交互性强、处理速度快，并且能够处理各种类型的数据，包括结构化、半结构化和非结构化数据。在技术要求方面，Kazi提到了大规模并行处理、分布式、内存计算和线性扩展等关键要素。这些特性是现代大数据处理平台的基础，其中SAP HANA被特别提及，作为一个重新构想的内存计算平台，它满足了这些需求。SAP HANA的特点包括： 1. 内存计算：提供快速的数据访问和处理能力。 2. 分布式：支持分布式数据存储，提高系统的可用性和容错性。 3. 线性扩展：随着硬件的增加，性能可以按比例增长。 4. 大规模并行处理：利用多核处理器和分布式计算资源，加速计算任务。 5. 列式存储：优化分析性能，尤其适合大数据查询。 6. 压缩：减少存储空间，提高I/O效率。 7. 支持多种数据类型：包括文本、地理空间和预测分析等。 SAP HANA不仅是一个数据库服务，也是一个应用平台，拥有丰富的功能库，支持超过1500家初创公司，创造了超过10亿美元的收入，并服务于3300多家企业客户。文章还提到了SAP HANA与Apache Spark的结合，它们共同构建了企业级大数据处理的架构——企业级数据织物。Spark提供了Spark SQL（基于Shark）、Spark Streaming、MLlib（机器学习库）和GraphX（图计算）等组件，增强了SAP HANA的实时分析和流处理能力。同时，宣布了与Databricks的合作，推出Spark 1.0版本的分发版，用户可以直接下载使用。这篇文章阐述了如何利用SAP HANA和Apache Spark构建一个强大的企业级大数据平台，以支持实时应用、交互式分析和复杂的数据处理需求，为企业提供全面的数据洞察力和业务价值。

DELIVERING

THE ENTERPRISE FABRIC

FOR BIG DATA

Aiaz Kazi

SVP, Platform Strategy and

Adoption

SAP

@aiazkazi

下载后可阅读完整内容，剩余9页未读，立即下载

腾讯开发者

粉丝: 1489

SAP与Spark：构建大数据的企业级框架

Big data support of urban planning and management : the experience in China

The Enterprise Big Data Lake

Magna：Brave-Delivering-Ad-Experiences-People-Want.pdf

Internet-Communications-Using-SIP-Delivering-VoIP_通讯编程文档_PDF_

young-man-scooter-delivering-pizza_java_javascript_jsp_

food-ordering-and-delivering-service:应用程序管理用React和Django构建的餐厅的订购和交付食物

MoreProcessPaterns-Delivering large-scale Systems

Cisco Press - Delivering High-Quality Web-Based Services.chm

COMPASS: A guide for delivering school-based special service programs

HackerRank---The-Linux-Shell-Problems_Solutions:问题可以通过-https

最新资源