Tachyon：内存为中心的开源分布式存储解决方案

117 浏览量更新于2024-08-27 收藏 595KB PDF 举报

"Tachyon是内存为核心的开源分布式存储系统，为大数据计算框架提供内存级数据共享，整合多种存储系统，实现高效数据访问。" Tachyon是一个创新的开源项目，旨在利用内存的速度优势来提升大数据处理的效率。作为内存级别的分布式存储系统，Tachyon在大数据生态中扮演着关键角色，尤其是在提升数据处理速度和跨计算框架的数据共享方面。其设计目标是解决传统磁盘存储系统在数据交换和恢复过程中的性能瓶颈。 Tachyon的诞生源于对提高计算性能的需求。随着内存技术的进步，内存容量增加且成本下降，使得内存计算成为可能。Spark的出现证明了这一模式的潜力，但即使如此，仍然存在一些挑战。例如，不同计算框架间的通信通常依赖于磁盘存储系统，导致数据交换速度慢；另外，Spark应用在JVM中缓存数据可能导致频繁的垃圾回收，影响性能。 Tachyon应运而生，它构建了一个独立的内存存储层，数据存储在堆外内存，减少了垃圾回收的影响。在Spark应用中，Tachyon可以提供以下好处： 1. 数据共享：不同Spark应用或者不同计算框架之间可以通过Tachyon快速读写数据，无需通过磁盘，显著提高了数据访问速度。 2. 数据持久化：如果Spark任务崩溃，由于数据存储在Tachyon，任务重启后可以从内存中直接恢复，避免了数据丢失。 3. 内存资源优化：多个应用可以共享Tachyon缓存的数据，减少重复加载，减轻了对内存资源的需求和垃圾回收压力。 Tachyon的架构设计使其能与多种存储系统集成，包括Amazon S3、Apache HDFS、Red Hat GlusterFS和OpenStack Swift等。这样，用户可以使用统一的接口访问这些不同的存储系统，简化了管理和提升了整体效率。在实际应用中，Tachyon已经在百度的大数据生产环境中得到验证，展示了其在提升数据处理效率和优化存储管理方面的强大能力。通过深入理解Tachyon的基本架构和功能，开发者可以更好地利用这个工具，提升大数据处理系统的整体性能和可靠性。

Tachyon--以内存为核心的开源分布式存储系统以内存为核心的开源分布式存储系统

Tachyon是一个以内存为核心的开源分布式存储系统，也是目前发展最迅速的开源大数据项目之一。Tachyon为不同的大数据

计算框架（如Apache Spark，Hadoop MapReduce, Apache Flink等）提供可靠的内存级的数据共享服务。此外，Tachyon还

能够整合众多现有的存储系统（如Amazon S3, Apache HDFS, RedHat GlusterFS, OpenStack Swift等），为用户提供统一

的、易用的、高效的数据访问平台。本文首先向读者介绍Tachyon项目的诞生背景和目前发展的情况；然后详解Tachyon系统

的基本架构以及目前一些重要的功能；最后，分享一个Tachyon在百度大数据生产环境下的几个应用案例。

1.Tachyon简介

随着技术的发展，内存的吞吐量在不断地提高，单位容量的内存价格在不断降低，这为“内存计算”提供可能。在大数据计算平

台领域，采用分布式内存计算模式的Spark验证了这一点。Spark相比于MapReduce大大提升了大数据的计算性能，受到了业

界和社区的广泛关注。然而，还是有很多问题在计算框架层难以解决，如：不同的Spark应用或不同计算框架

（Spark，MapReduce，Presto）间仍需通过基于磁盘的存储系统（如HDFS，Amazon S3等）交换数据；当Spark计算任务

崩溃，JVM缓存的数据会丢失； JVM中大量缓存的数据增加了Java垃圾回收的压力。

Tachyon最初出现是为了有效地解决了上述问题，它计划构建一个独立的存储层来快速共享不同计算框架的数据，实现方式上

将数据置于堆外(off-heap)内存以避免大量垃圾回收开销。例如，对应Spark应用而言，可以带来以下作用：

1. 不同Spark应用，甚至不同计算平台上的应用需要数据共享时，通过Tachyon进行内存读写，避免缓慢的磁盘操作。

2. 使用Tachyon进行数据缓存，当Spark任务崩溃，数据仍缓存在Tachyon内存中，任务重启后能够直接从Tachyon中读取

数据。

3. 多个Spark应用理论上甚至可以共享同一份Tachyon缓存的数据，避免内存资源的浪费，减轻Java垃圾回收的压力。

图1. Tachyon在生态系统的位置

图1给出了Tachyon部署时所处的位置。Tachyon被部署在计算平台之下和现有的存储系统之上，能够在不同计算框架间共享

数据。同时，现有的海量数据不需要进行迁移，上层的计算作业仍能通过Tachyon访问到底层存储平台上的数据。Tachyon作

为一个以内存为中心的中间存储层，不仅能极大地提升上层计算平台的性能，还能充分利用不同特性的底层存储系统，更可以

有效地整合两者的优势。

Tachyon最初是由李浩源博士发起的源自UC Berkeley AMPLab的研究项目（该实验室也是Mesos和Spark的发源地）。自

2013年4月开源以来，Tachyon社区不断壮大，已经成为发展速度最快的开源大数据项目之一，目前已有来自超过50个组织机

构的200多人参与到了对Tachyon项目的贡献中，也有超过100家公司部署了Tachyon。于此同时，Tachyon的核心创建者和开

发人员创立了Tachyon Nexus公司，其中不乏UC Berkeley、CMU等博士以及Google, Palantir, Yahoo!等前员工。 2015年3月

美国华尔街日报报道了Tachyon Nexus获得硅谷著名风投Andreessen Horowitz 的750万美元A轮投资。

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38556985

粉丝: 3
资源: 906

Tachyon：内存为中心的开源分布式存储解决方案

tachyon-0.6.4-bin.tar.gz

tachyon-0.4.1.zip

内存加速的大数据神器：Tachyon--分布式存储新架构

开源的分布式内存文件系统 Tachyon.zip

使用开源分布式存储系统Alluxio来有效的分离计算与存储.zip

范斌-大数据存储系统Tachyon的最新进展与用例分析

Alluxio分布式存储系统 v2.4.1.2-源码.zip

Alluxio - 开源AI和大数据存储编排平台.rar

云原生时代分布式文件系统的设计与实现共37页.pdf.zi

深入理解Spark 核心思想与源码分析

最新资源