没有合适的资源?快使用搜索试试~ 我知道了~
首页IBM分析大数据平台架构
IBM分析大数据平台架构
需积分: 12 47 下载量 87 浏览量
更新于2023-03-16
评论 2
收藏 874KB PDF 举报
IBM InfoSphere Streams 是 IBM 大数据平台中支持构建和部署持续实时分析 应用程序以分析动态数据的技术组件。这些应用程序将持续不断地寻找数据流 中的模式。检测到模式后,将分析模式的影响,并即时制定实时决策,从而加 强竞争优势。示例包括分析金融市场交易行为、分析 RFID 数据以实现供应链和 分销链优化,监控传感器数据以支持制造流程控制,新生儿重症监护室监控, 实时欺诈防范和执法中的实时多模式监测。IBM InfoSphere Streams 能同时监 控多个外部和内部事件流,无论它们是由机器生成的,还是手动生成的。该解 决方案支持海量结构化和非结构化流式数据源,包括文本、图像、音频、语音 、VoIP、视频、Web 流量、电子邮件、地理空间数据、GPS 数据、金融交易 数据、卫星数据、传感器和其他任何类型的数字信息。
资源详情
资源评论
资源推荐
设计用于分析大数据平台的架构
适用对象:
作者:Mike Ferguson
Intelligent Business Strategies
2012 年 10 月
白皮书
INTELLIGENT
BUSINESS
STRATEGIES
设计用于分析的大数据平台的架构
版权所有 © Intelligent Business Strategies Limited,2012,保留所有权利。
2
目录
简介 ................................................................ 4
分析新数据源的业务需求 .............................................. 4
工作负载复杂性的增加 ................................................ 5
数据复杂性的增加 .................................................... 5
各种数据类型 ........................................................ 5
数据量 .............................................................. 5
数据生成的速度 ...................................................... 5
分析复杂性的增加 .................................................... 6
什么是大数据? ...................................................... 7
大数据的类型 ........................................................ 7
为何需要分析大数据? ................................................ 8
大数据分析应用 ...................................................... 8
大数据分析工作负载 ................................................. 10
分析动态数据以制定运营决策 ......................................... 10
非模式化、多结构化数据的探索式分析 ................................. 11
结构化数据的复杂分析 ............................................... 12
存档数据的存储、预处理和查询 ....................................... 13
加速结构化数据和非模式化数据的 ETL 处理 ............................ 13
端到端大数据分析的技术选项 ......................................... 14
用于动态大数据的事件流处理软件 ..................................... 14
静止大数据分析的存储选项 ........................................... 14
分析 RDBMS 设备 .................................................... 15
Hadoop 解决方案 .................................................... 15
NoSQL DBMSs ........................................................ 16
哪种存储选项最为合理? ............................................. 16
静止大数据的可伸缩数据管理选项 ..................................... 17
大数据分析选项 ..................................................... 18
将大数据集成到您的传统 DW/BI 环境中 ................................ 20
新型企业分析生态系统 ............................................... 20
接合分析处理 - 工作流的力量 ........................................ 21
新型分析生态系统的技术要求 ......................................... 22
入门:企业的大数据分析战略 ......................................... 24
业务协调 ........................................................... 24
工作负载与分析平台的协调 ........................................... 24
技能集 ............................................................. 24
为数据科学和探索搭建环境 ........................................... 24
定义分析模式和工作流 ............................................... 25
通过集成技术过渡到大数据企业 ....................................... 25
设计用于分析的大数据平台的架构
版权所有 © Intelligent Business Strategies Limited,2012,保留所有权利。
3
供应商示例:IBM 的端到端大数据解决方案 ............................. 26
IBM InfoSphere Streams –– 分析动态大数据 ......................... 27
支持分析静态数据的 IBM 设备 ........................................ 28
IBM InfoSphere BigInsights ......................................... 28
IBM PureData System for Analytics(采用 Netezza 技术) ............. 29
IBM PureData System for Operational Analytics ...................... 29
IBM大数据平台加速器 ................................................ 30
IBM DB2 分析加速器 (IDAA) .......................................... 30
面向大数据企业的 IBM 信息管理 ...................................... 30
面向大数据企业的 IBM 分析工具 ...................................... 31
IBM BigSheetsuda ................................................... 31
IBM Cognos 10 ...................................................... 31
IBM Cognos Consumer Insight (CCI) .................................. 32
IBM SPSS ........................................................... 32
IBM Vivisimo ....................................................... 33
这些组件如何融合在一起以实现端到端的业务洞察 ....................... 33
结束语 ............................................................. 34
设计用于分析的大数据平台的架构
版权所有 © Intelligent Business Strategies Limited,2012,保留所有权利。
4
简介
多年来,企业始终通过构建数据仓库来分析业务活动,获得供决策制定者采取
业务绩效提升措施的洞察。这些
传统
分析系统通常基于经典模式,即从多个运
营系统中捕获数据,并对这些数据加以清理、转换和集成,随后再将其加载到
数据仓库中。通常,组织将建立多年的业务活动历史,以便运用商业智能 (BI)
工具来分析、对比和报告长期业务绩效。除此之外,组织通常还会从数据仓库
中提取这些数据的子集,并将其置入已为更详细的多维分析而优化的数据市场
中。
如今,数据仓库和 BI 出现已有二十余年。这段时间以来,许多企业已经在其不
同的业务部分中构建了众多数据仓库和数据市场。尽管 BI 市场日趋成熟,但 BI
仍然处于 IT 投资的前沿。这种要求在很大程度上可以归因于人们创建的数据越
来越多。但是,企业也在发生变化,已经从凭直觉运营转变为根据详尽的事实
信息运营。在这个动荡的市场中,随着分析关系数据库技术的发展以及移动和
协作式 BI 的兴起,软件技术也在不断改进。
分析新数据源的业务需求
尽管传统环境不断发展,但如今出现了许多更为复杂的新数据类型,企业需要
分析这些数据类型,以便充实其已知信息。此外,这些新数据的生成速度远远
超过了以往的纪录。
客户和潜在客户正在社交网络和评论网站中创建大量的新数据。此外,在线新
闻项目、气象数据、竞争对手网站内容,甚至是数据市场如今都已经成为可供
企业使用的候选数据源。
在企业内部,随着客户转变为以在线渠道作为开展商业交易及与企业互动的首
选方法,网络日志也在不断增加。分析所用的存档数据再次增多,为监测和优
化业务运营而部署的传感器网络和机器数量也越来越多。结果就生成了大量新
数据源、快速增加的数据量和迅速增加的新数据流,需要分析所有这些新数据
。
多年来,组织始终通
过构建数据仓库来分
析业务活动
BI
市场日趋成熟,但
BI
仍然处于
IT
投资
的前沿
更为复杂的新数据已
经出现,而且生成的
速度达到了前所未有
的程度
社交网络数据、网络
日志、存档数据和传
感器数据都属于人们
在分析中关注的新数
据源
设计用于分析的大数据平台的架构
版权所有 © Intelligent Business Strategies Limited,2012,保留所有权利。
5
工作负载复杂性的增加
观察所有这些新数据源,可以明确的是,无论是就数据本身的特征而言,还是
就企业希望执行的分析类型而言,复杂性都在增加。
数据复杂性的增加
就数据而言,复杂性主要是通过三种途径增加的:
• 企业所捕获的各种数据类型
• 企业所捕获的数据量
• 数据生成的速度或速率
•
数据的精确性或可信性
各种数据类型
除了“正常”捕获主数据和事务数据之外,企业现在还会捕获新的数据类型。
这其中包括:
• 半结构化数据,例如,电子邮件、电子表格、HTML、XML
• 非结构化数据,例如,文档集合(文本)、社交互动、图片、视频和声
音
• 传感器数据和机器生成数据
这一系列更为复杂的全新数据类型通常也被称为多结构化数据。多结构化数据
的一个主要问题是这些数据往往是非模式化的,因此必须加以“探索”,才能
从中得出具有商业价值的结构化数据。因此,通常必须在传统分析环境的上游
对多结构化数据执行调查分析,以便识别可能充分实现有数据仓库内已存储内
容的数据。此外,还可能需要对此数据(比如石油与天然气中的地震数据)执
行独立高级分析研究。
数据量
除了新数据类型造成的复杂性之外,企业收集数据的速度也在加快,这造成了
数据量的进一步增加。示例包括文档和电子邮件、web 内容、电信业呼叫数据
记录 (CDR)、网络日志数据和机器生成数据的集合。这些数据源可能要占用数
百 TB 乃至数 PB 的空间。
数据生成的速度
数据的生成速度也在快速增加。金融市场数据就是一个很好的示例,这些数据
以极快的速度生成和发出,必须立即分析这些数据才能及时响应市场变化。其
他示例包含传感器数据和机器生成数据,此时的需求与之前相同,摄像头还可
能需要视频和图像分析。
数据和分析工作负载
的复杂性正在增加
正在捕获新的数据类
型
其中大部分数据都是
非模式化的
必须首先通过调查分
析来确定其结构,之
后才能将其引入数据
仓库
某些新数据源的数据
量也非常庞大
数据创建的速度也在
不断加快
剩余34页未读,继续阅读
qq_26764643
- 粉丝: 0
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
- SPC统计方法基础知识.pptx
- MW全能培训汽轮机调节保安系统PPT教学课件.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0