OPPO数据湖存储CBFS技术详解

版权申诉
5星 · 超过95%的资源 1 下载量 99 浏览量 更新于2024-09-08 收藏 3.36MB PDF 举报
“OPPO 数据湖统一存储技术实践.pdf” OPPO作为一家全球知名的智能终端制造商,面临着海量数据的存储和利用挑战。数据湖作为一种流行的解决方案,旨在实现低成本、高效的数据管理和分析。OPPO自研的数据湖存储系统——CBFS(Cloud-Based File System),旨在解决这些问题并提供更灵活的数据处理能力。 数据湖存储技术的核心在于其原始数据格式的保留,允许以二进制blob或文件形式存储,便于多种类型的数据分析。数据湖的优势在于: 1. 高度灵活性:数据读取、写入和加工便捷,且能保存所有原始数据,不受特定结构限制。 2. 多重分析:支持批处理、流计算、交互式查询以及机器学习等多种数据分析负载。 3. 低成本:通过独立扩展存储和计算资源,采用对象存储实现冷热数据分离,降低存储成本。 4. 易管理性:具备完善的用户管理、权限控制、合规审计,确保数据全生命周期的可追溯性。 OPPO的数据湖整体解决方案由三层构成: 1. 湖存储层:使用OPPO自研的CBFS,支持S3、HDFS和POSIX文件三种接入协议,提供低成本存储。 2. 实时数据存储层:采用iceberg格式,用于实时数据处理。 3. 计算引擎层:支持多种计算引擎,实现数据的高效复用。 OPPO数据湖架构的特点体现在统一的元数据管理、批流计算一体化、交互查询性能优化以及对象存储作为统一数据底座。新架构提升了接口友好性,实现了秒级响应和高并发,同时支持数据源的 Upsert 变更操作。 CBFS架构分为六个子系统: 1. 协议接入层:支持多协议接入,实现数据跨协议读写。 2. 元数据层:提供文件系统和对象的命名空间管理,支持层次和扁平结构。 3. 存储管理层:负责数据的存储和管理,包括冷热数据分离。 4. 安全与权限层:确保数据安全,实现细粒度的访问控制。 5. 性能优化层:通过缓存、并行处理等手段提高数据读写速度。 6. 监控与运维层:提供全面的监控和运维工具,确保系统的稳定运行。 CBFS的未来展望可能涉及持续优化性能,提升扩展性,增强安全性,以及更好地支持AI和大数据分析工作负载,以满足OPPO及其用户对数据智能服务不断增长的需求。