Adatao:Spark与Tachyon构建的分布式深度学习框架解析

3星 · 超过75%的资源 需积分: 10 71 下载量 75 浏览量 更新于2024-07-21 1 收藏 12.4MB PDF 举报
"Adatao是基于Spark和Tachyon构建的首个可扩展的分布式深度学习框架,旨在解决在大规模数据集上进行深度学习时遇到的挑战。该框架结合了大数据处理的强大功能和高效的内存存储系统,以实现高效、快速的模型训练和推理。" 在深度学习领域,Adatao的独特之处在于它利用Apache Spark的并行处理能力以及Tachyon的内存计算层,为分布式环境提供了强大的支持。Spark作为一个流行的开源大数据处理框架,能够快速处理大规模数据,而Tachyon则作为一个内存中的文件系统,允许跨集群的数据高速访问,减少了数据读取的延迟,这对于需要频繁访问大量数据的深度学习任务至关重要。 Adatao的旅程包括四个主要部分: 1. 公司的使命与目标:Adatao专注于应用开发、大数据应用程序(BIGAPPS)以及预测性分析,同时强调自然界面和协作,致力于将大数据与大计算相结合。 2. 遇到的挑战:在构建分布式深度学习平台时,团队面临了多种选择,如选择合适的深度学习平台,平衡计算效率和可扩展性等。 3. 解决方案:通过利用Spark和Tachyon,Adatao创建了一个既能处理海量数据,又能进行高效深度学习的架构。这种选择依赖于具体的应用场景和需求。 4. 分享的经验教训:在开发过程中,团队与业界专家进行了交流,包括来自Adatao、TachyonNexus、百度和Stanford/Databricks的专家,这些经验分享有助于做出良好的工程和架构决策。 Adatao的深度学习应用涵盖了物联网(IoT)、客户细分、欺诈检测等多个领域,这些领域的共同特点是需要处理大量实时或近实时的数据,并且对模型的准确性和响应时间有高要求。 在选择深度学习平台时,Adatao提到了MapReduce和Pregel在Google的应用作为类比,表明不同的工作负载和环境可能需要不同的处理策略。这强调了在设计分布式深度学习系统时,灵活性和适应性是关键。 Adatao的框架展示了如何将大数据处理技术和内存计算结合,以解决深度学习中的挑战,为未来的分布式深度学习项目提供了有价值的参考和启示。
2019-07-19 上传
Tachyon是一个分布式内存文件系统,可以在集群里以访问内存的速度来访问存在tachyon里的文件。把Tachyon是架构在最底层的分布式文件存储和上层的各种计算框架之间的一种中间件。主要职责是将那些不需要落地到DFS里的文件,落地到分布式内存文件系统中,来达到共享内存,从而提高效率。同时可以减少内存冗余,GC时间等。        特性:类 Java 的文件 API兼容性:实现 Hadoop 文件系统接口可插入式的底层文件系统内建 Raw 原生表的支持基于 Web 的 UI 提供命令行接口Tachyon 架构:与 HDFS 的比较:        Hadoop足够快吗?美国加州大学伯克利分校的AMPLab基于Hadoop的核心组件开发出一个更快的版本Tachyon。AMPLab从底层重建了Hadoop平台,“没有最快,只有更快”。        AMPLab在大数据领域最知名的产品是Spark,它是一个内存中并行处理的框架,Spark的创造者声称:使用Shark运行并行处理Job速度要比MapReduce快100倍。又因为Spark是在内存运行,所以Shark可与Druid或者SAP's HANA系统一较高下。Spark也为ClearStory下一代分析和可视化服务提供处理引擎。如果你喜欢用Hive作为Hadoop的数据仓库,那么你一定会喜欢Shark,因为它代表了“Hive on Spark”。       AMPLab的最新目标就是Hadoop分布式文件系统(HDFS),不过HDFS在可用性和速度方面一直受人诟病,所以AMPLab创建了Tachyon( 在High Scalability上非常夺目,引起了Derrick Harris的注意)。       当然,AMPLab并不是第一个对HDFS提出质疑的组织,同时也有很多商业版本可供选择,像Quantcast就自己开发了开源文件系统,声称其在运行大规模文件系统时速度更快、更高效。诚然,AMPLab所做的工作就是打破现有商业软件的瓶颈限制。如果碰巧破坏了现状,那么就顺其自然吧!不过,对于用户来说,AMPLab只是为那些寻找合适工具的人员提供了一种新的选择,AMPLab的合作伙伴和赞助商包括谷歌,Facebook,微软和亚马逊网络服务,它们当然非常乐意看到这些新技术,如果很有必要的话。       AMPLab的其他项目包括PIQL,类似于一种基于键/值存储的SQL查询语言;MLBase,基于分布式系统的机器学习系统;Akaros,一个多核和大型SMP系统的操作系统;Sparrow,一个低延迟计算集群调度系统。Tachyon可运行在如下任意平台上: 标签:分布式  文件系统