下一代归档:在Hadoop平台上实现可能吗?

需积分: 9 0 下载量 67 浏览量 更新于2024-09-06 收藏 865KB PDF 举报
"NextGenerationArchiving: Can we do it? 这是一份关于下一代归档技术的报告,由Jordan Volz在SPARK SUMMIT 2017上发表。报告探讨了如何在Hadoop平台上进行归档、电子发现(e-Discovery)以及监督,并对传统系统在这些领域的不足进行了分析。 报告首先介绍了归档(Archiving)的概念,包括长期数据存储,涉及到合规性(如WORM/WORM-like Non-Erasable Non-Repudiable)与非合规性的区别。归档过程涉及数据的摄入与丰富、保留政策、主动与被动管理、对账、审计以及搜索功能。报告指出,传统的归档系统存在架构过时、扩展性差、无法处理所有数据类型、部署方式僵化、依赖专有技术、端到端解决方案碎片化以及静态加密等局限性。 接着,报告讨论了电子发现(e-Discovery)的重要性,这是在法律诉讼中评估电子数据相关性的过程。它包括初步电子发现(ECA)、法律保全、技术辅助检索(TAR)、数据生产、案例管理、元数据管理和电子数据披露管理(EDRM)等环节。传统系统的e-Discovery工具往往不与归档系统原生集成,且ECA的可扩展性有限,支持不足。 然后,报告提到了监督(Supervision),即通过电子通信审查来检测不道德行为。这涉及基于风险的策略、随机抽样、监控、审计、数据分析与报告,以及合规工作流程(CO workflow)和词汇管理。在现有系统中,可能存在监控效率低、审计困难和分析能力有限的问题。 最后,报告的核心议题是是否能在Hadoop平台上实现下一代归档。Hadoop以其大数据处理能力、分布式架构和开放源代码特性,为解决传统系统中的挑战提供了可能性。通过Hadoop,可以构建更灵活、可扩展且能处理多种数据类型的归档解决方案,同时改进e-Discovery和监督的功能。 这份报告揭示了当前归档、电子发现和监督面临的挑战,提出利用Hadoop平台可能带来的革新,并呼吁业界探索如何有效地在这个新平台上实施这些关键任务,以提升效率和合规性。"