Informatica 与 Hadoop
利用 Hadoop 独特的处理能力,应对大数据的大数量、广泛的数据种类和高速度
企业中的 Hadoop
正如 Hadoop 资深专家 Tom White 在其著作 《Hadoop 权威指南》中所述,“好消息就是
大数据已经出现。 坏消息就是我们正为存储和分析大数据而头疼。”借助 Hadoop,组织逐
渐发现新的数据分析方法并将其付诸实践,挖掘原本由于性能、成本和技术原因而不切实
际的技巧。 因此,Hadoop 逐渐成为处理、存储和分析大量半结构化、非结构化或原始数
据的最热门方案。
但是,您到底是如何及何时利用 Hadoop 的呢?
Hadoop 的主要优势就是在利用商用硬件方面的成熟、经济有效的可扩展性。 它为结构化、
半结构化和非结构化等所有数据类型的处理提供支持,而 Hadoop 开放的可扩展性可帮助
开发人员为其增加专业功能,以便适应广泛的应用。
很多组织开始将 Hadoop 视为自身环境的延伸,用以应对大型数据的数量、速度及种类挑
战。 因此,Hadoop 的采用率会增加,最近针对大规模数据用户的一项调查显示,超过半
数的受访者表示会在其环境中考虑使用 Hadoop。
数据集成与 Hadoop
Hadoop 不会取代现有系统。 Hadoop 反而通过对大量数据的额外处理加强现有系统,以
便现有系统重点处理其最擅长的工作。 对于希望将 Hadoop 与多个系统的数据相结合的组
织,数据集成起着关键作用,能够实现原本不可能的突破性业务洞察力。 Informatica 平台
可帮助各个组织在混合型环境中利用 Hadoop,以便利用每种技术的独特优势,并将整体
环境的性能最大化。
使用针对 Hadoop 的数据集成平台
像任何新兴技术一样,Hadoop 并非没有遇到挑战。 全面、开放、统一的数据集成平台能
够提供以下功能,从而帮助组织应对这些挑战并充分利用 Hadoop:
统一数据访问 – 使用 Hadoop 存储和处理各种数据来源的组织往往面临整合及处理所
有相关数据的挑战。 数据集成平台帮助各家组织轻松可靠地对进出 Hadoop 的数据进
行预处理和后处理。
数据解析和交换 - Hadoop 具备存储各种数据的出色功能,但要提取所有相关数据类型
的数据含义并使其有意义是一项重大挑战。 数据集成平台帮助提高生产率,从图像、
文本、二进制文件和行业标准等非结构化数据源中提取更大价值。
评论1