甲骨文技术总监解读:从非结构化数据到大数据的整体解决方案

4星 · 超过85%的资源 需积分: 47 50 下载量 186 浏览量 更新于2024-07-24 收藏 3.01MB PDF 举报
"这篇文档是甲骨文公司技术总监李珈分享的关于从非结构化数据到大数据的整体解决方案,强调了大数据的挑战和应对策略。文档指出,非结构化数据占据了75%~85%的信息量,且增长迅速,来源多样,包括Web2.0、电子零售、传感器读数等。大数据的特征被定义为4V:巨大的数据量(Volume)、高速的数据生成(Velocity)、多样的数据类型(Variety)以及低价值密度(Value)。文档还提到了2015年的一些数据实例,如每天上亿条微博、中型城市的智能电表数据等,强调了数据量的急剧增长。" 详细知识点: 1. **非结构化数据**:非结构化数据是指那些不遵循预定义模式的数据,例如文本、图片、视频、音频等。它们占据了大部分的数据量,管理和分析这些数据是大数据领域的一大挑战。 2. **大数据4V特性**: - **Volume(体积)**:大数据的显著特征是数据量巨大,传统数据库无法处理。 - **Velocity(速度)**:数据生成的速度非常快,要求实时或近实时的处理能力。 - **Variety(多样性)**:数据来源广泛,类型多样,包括非结构化、半结构化和结构化数据。 - **Value(价值)**:虽然单条数据的价值可能较低,但大量数据综合分析后能揭示深度信息和模式。 3. **大数据案例**:通过具体的例子,如微博数据、智能电表数据、移动终端产生的数据,展示了大数据的规模和增长速度。 4. **大数据解决方案**:文档提到了一些大公司如Oracle、EMC、Microsoft和IBM等如何通过合作或开发自己的产品来应对大数据挑战。 5. **政策背景**:美国政府的“大数据研究和发展计划”展示了大数据在科研和政策层面的重要性,比如在健康、遗传学、能源等领域。 6. **经济影响**:大数据对医疗服务、零售、制造业等经济领域产生了深远影响,有助于优化决策、提升效率和创新业务模式。 7. **数据存储与分析**:文中提到的国际千人基因组计划的数据集在AWS上免费公开,显示了云计算在大数据存储和分析中的角色。 8. **行业合作**:大型科技公司与专业的大数据公司(如Cloudera)的合作,表明了大数据市场的发展趋势和跨行业合作的重要性。 9. **大数据的挑战**:如何处理和分析非结构化数据、实现海量数据的实时分析、提高价值密度等是大数据技术需要解决的关键问题。 10. **技术发展**:随着大数据技术的不断进步,如Hadoop、Spark等分布式计算框架的出现,使得处理和分析大数据成为可能。 以上内容涵盖了从非结构化数据到大数据整体解决方案的关键知识点,包括其定义、特征、挑战、实际应用以及对社会经济的影响。