数据仓库与外部非结构化数据:挑战与管理

需积分: 37 30 下载量 119 浏览量 更新于2024-08-10 收藏 8.79MB PDF 举报
"这篇文档是关于外部数据和非结构化数据在数据仓库中的应用与管理,特别是探讨了它们在国家电子政务外网安全等级保护实施中的角色。文章指出,数据仓库不仅是内部结构化数据的存储场所,也是管理和整合外部数据和非结构化数据的重要平台。在缺乏集中管理的情况下,外部数据和非结构化数据可能会失去来源标识,影响数据的协同使用。文中还提到了外部数据的自由获取可能导致追溯和再利用困难,以及数据仓库在决策支持系统(DSS)演进中的重要性。" 在数据仓库的构建和运营中,内部数据通常是企业运营系统的直接产物,它们经过结构化处理,易于分析和管理。而外部数据和非结构化数据则来自企业外部,可能是非规则格式,例如报告、图像、音频或社交媒体数据。这些数据的引入能丰富信息来源,但同时也带来了挑战。如图8-1所示,外部数据和非结构化数据的整合使得数据仓库更加多元化,但也需要解决数据来源追踪和保持数据一致性的问题。 图8-2揭示了当外部数据和非结构化数据未经规范管理进入企业时,可能会丢失数据来源信息,影响数据分析的准确性和可追溯性。例如,分析师直接从PC端通过电子表格手工输入《华尔街日报》的数据,原始数据源信息会丢失,这限制了数据的价值和后续应用。 外部数据源的多样性是大数据时代的一个显著特征,包括各种公开报告、新闻、市场数据等。这些数据在特定时间内可能极具价值,但如果没有有效管理和存储,可能会在使用一次后消失,难以再次获取。 数据仓库的发展历程反映了决策支持系统(DSS)从早期的简单报表和程序处理,逐步演变为复杂的信息系统架构中心。从60年代的主文件和磁带系统,到后来面对数据冗余和一致性问题,再到数据仓库的兴起,DSS的演变展示了对数据集成、一致性及快速访问的需求不断提升。 在大数据的背景下,数据仓库的角色越发重要,不仅需要处理传统的内部结构化数据,还要容纳和管理大量的外部数据和非结构化数据,以提供全面的决策支持。为了确保数据的安全和有效利用,需要实施严格的数据管理策略,包括数据的整合、清洗、标准化以及元数据的记录,以确保数据的可追溯性和一致性。同时,对于外部数据的获取和使用,应建立有效的跟踪机制,以便在需要时能够重新访问和理解这些数据的意义。