时间: 2024-04-05 12:25:55 浏览: 227
1. "MapReduce: Simplified Data Processing on Large Clusters" by Jeffrey Dean and Sanjay Ghemawat
- 这篇论文介绍了Google的MapReduce框架,它是大数据处理的基础之一。
2. "The Google File System" by Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung
- 这篇论文描述了Google的分布式文件系统(GFS),它是大数据存储的关键技术之一。
3. "Bigtable: A Distributed Storage System for Structured Data" by Fay Chang, Jeffrey Dean, Sanjay Ghemawat, Wilson C. Hsieh, Deborah A. Wallach, Mike Burrows, Tushar Chandra, Andrew Fikes, and Robert E. Gruber
- 这篇论文介绍了Google的Bigtable,它是一种高性能、可扩展的分布式存储系统,被广泛应用于大数据领域。
4. "Hadoop: The Definitive Guide" by Tom White
- 这本书是关于Apache Hadoop的权威指南,详细介绍了Hadoop的架构、组件和使用方法。
5. "Spark: Cluster Computing with Working Sets" by Matei Zaharia, Mosharaf Chowdhury, Michael J. Franklin, Scott Shenker, and Ion Stoica
- 这篇论文介绍了Apache Spark,一个快速、通用的大数据处理引擎,具有内存计算和容错性能。
6. "Storm: Distributed and Fault-Tolerant Real-Time Computation" by Nathan Marz and James Warren
- 这篇论文介绍了Apache Storm,一个用于实时数据处理的分布式计算系统,具有高可靠性和可扩展性。
7. "Kafka: A Distributed Streaming Platform" by Jay Kreps, Neha Narkhede, and Jun Rao
- 这篇论文描述了Apache Kafka,一个高吞吐量、可持久化、分布式发布订阅消息系统,被广泛应用于大数据流处理。