大数据时代：后端架构与分布式计算优化策略

需积分: 10 79 浏览量更新于2024-07-15 收藏 2.65MB PDF 举报

第十八章主要探讨了在大数据时代背景下，后端架构选型、离线及实时计算的重要性。随着数据量的爆炸式增长，从GB到PB级别，企业面临着海量数据存储和高效分析的挑战。传统的单机存储方式已无法满足需求，因为即使现代硬盘容量大幅增加，读取速度却相对滞后，处理TB级别数据的分析时间过长。分布式计算的引入解决了这一问题。它通过将数据分散存储在多个节点上，利用并行读写提高性能。例如，使用多个硬盘并行操作，大大缩短了数据读取时间。然而，实现分布式存储并非易事，需要考虑硬件故障的容错性，例如通过副本机制来保障数据的可靠性，如RAID磁盘阵列。此外，如何合理分割大文件、文件间的校验以及数据一致性管理也是分布式存储需要解决的关键技术问题。 Hadoop框架中的HDFS（Hadoop Distributed File System）就是一个例子，它为开发者提供了分布式存储的基础设施，自动处理文件切分、校验等底层问题，让开发者可以专注于业务逻辑的实现，无需过多关注这些细节。对于大规模数据分析，传统的逐行扫描方法效率低下，但在分布式计算环境下，可以利用MapReduce这样的分布式计算框架。例如，针对10TB的大文件，使用MapReduce可以在多台服务器上并行处理，显著提升统计关键字出现次数等任务的执行效率。第十八章深入剖析了在大数据背景下，如何通过选择合适的后端架构，采用分布式存储和计算，以应对海量数据处理的挑战，提高数据价值挖掘的效能。这对于企业来说，是提升竞争力和创新力的关键技术手段。

第十八章_后端架构选型、离线及实时计算.md

2020/7/27

5 / 26

Github地址：https://github.com/apache/mahout

18.2.4 Spark MLllib

MLlib(Machine Learnig lib) 【4】是Spark对常⽤的机器学习算法的实现库，同时包括相关的测试和数据⽣

成器。

MLlib是MLBase⼀部分，其中MLBase分为四部分：MLlib、MLI、ML Optimizer和MLRuntime。

ML Optimizer会选择它认为最适合的已经在内部实现好了的机器学习算法和相关参数，来处理⽤户输⼊

的数据，并返回模型或别的帮助分析的结果；

MLI 是⼀个进⾏特征抽取和⾼级ML编程抽象的算法实现的API或平台；

MLlib是Spark实现⼀些常见的机器学习算法和实⽤程序，包括分类、回归、聚类、协同过滤、降维以及

底层优化，该算法可以进⾏可扩充； MLRuntime 基于Spark计算框架，将Spark的分布式计算应⽤到机器

学习领域。

MLlib主要包含三个部分：

底层基础：包括Spark的运⾏库、矩阵库和向量库

算法库：包含⼴义线性模型、推荐系统、聚类、决策树和评估的算法

实⽤程序：包括测试数据的⽣成、外部数据的读⼊等功能

剩余25页未读，继续阅读

hkd_ywg

粉丝: 5
资源: 93

大数据时代：后端架构与分布式计算优化策略

18_第十八章_后端架构选型、离线及实时计算1

DeepLearning深度学习教程_第十八章_后端架构选型、离线及实时计算.pdf

DeepLearning深度学习教程_第十八章_后端架构选型及应用场景.pdf

第十八章_后端架构选型及应用场景.md

18_第十八章_后端架构选型及应用场景1

第十八章_后端架构选型及应用场景1

后端架构选型及应用场景.md

工业机器人中的离线编程技术分析.pdf

云GIS服务平台软件架构选型及服务模式设计.pdf

基于Flume+kafka+spark大型电商网站日志分析系统（离线+实时）.zip

最新资源