大数据技术体系图谱:数据采集、传输、存储及处理的全面概览

8 下载量 15 浏览量 更新于2024-01-03 收藏 2.08MB PPTX 举报
大数据技术体系图谱是一份96页的PPT文档,涵盖了数据采集、数据传输、数据存储、数据处理、数据应用和数据治理等方面的内容。以下是对文档内容的总结: 第1页是目录页,介绍了本文档的结构和分类。 01.数据采集:第3页开始介绍了数据采集的内容。其中包括了日志采集和外部数据采集两部分。在日志采集方面,介绍了采集方式和相关的采集框架,如Logstash、Flume、Fluentd和Chukwa等。在外部数据采集方面,介绍了爬虫技术和相关的爬虫框架,例如Nutch、Heritrix、Scrapy和WebCollector等。此外还涉及到了数据采集与IoT设备、传感器以及探针等的关系。 02.数据传输:第7页开始介绍了数据传输的相关内容。主要包括消息队列、数据同步和数据订阅等方面。列举了一些常用的消息队列工具,如Kafka、ActiveMQ、RabbitMQ和RocketMQ等。同时还提到了一些数据同步工具,如DataX、Kettle、Cannal、Sqoop、SymmetricDS和OGG(Oracle Golden Gate)等。最后还介绍了一些数据订阅相关的工具,如Databus、Wormhole、Otter和阿里云DTS等。此外,还介绍了常用的数据传输序列化工具,包括JSON、Protobuf、Hessian、FST、MessagePack和Avro等。 03.数据存储:第14页开始介绍了数据存储的相关内容。主要涵盖了分布式文件/对象存储、物理存储、分布式关系型数据库、分析型数据库、搜索引擎和K-V存储等方面。在分布式文件/对象存储方面,介绍了几个常见的工具和框架。在物理存储方面,介绍了一些常用的存储方式。在分布式关系型数据库方面,列举了一些常见的数据库工具和框架。在分析型数据库方面,提到了一些常用的工具和技术。在搜索引擎和K-V存储方面,也介绍了一些相关的工具和框架。 总体来说,该大数据技术体系图谱全面覆盖了大数据技术体系的各个方面,包括数据采集、传输、存储、处理、应用和治理等。对于从事大数据领域的技术人员和研究人员来说,这份图谱是一个很好的参考资料,可以帮助他们了解和掌握大数据技术体系的全貌和关键要点。