《徐皓+-+360大数据中心平台演进与实践》是一篇关于360公司在大数据领域的深度分享,由徐皓在2018年进行。该报告详细探讨了360大数据中心的发展历程、业务特性、数据处理能力以及平台的重要组成部分。
1. **业务介绍**:
- 360大数据中心拥有庞大的数据资源,包括全样本行为库(数十万亿日志条目,每日新增数百亿)、全球域名信息库(数十亿DNS解析记录,每日新增百万以上)、网址库(每日查询和处理百亿级别)、全球文件样本库(数百万新增样本,百亿总样本)等。这些数据来源于5亿多PC和移动端安全客户端,以及丰富的互联网基础设施、举报响应平台和第三方数据源。
- 数据涉及的领域广泛,包括漏洞、安全攻击、钓鱼网址、恶意样本等互联网痕迹大数据,以及主机信息、移动信息、主动防御等。同时,360大数据中心还服务于70多个活跃产品,涵盖了搜索、IoT、个人安全、视频、信息流等多个应用场景。
2. **数据处理与演进过程**:
- 2010年开始,360大数据中心经历了从早期的单一数据统计工具到一站式数据治理、加工及挖掘平台的演进。2010年10月,第一个MR(MapReduce)程序上线,标志着初步的大数据处理能力。之后,随着移动端SDK的发布和报表工具的完善,数据处理能力逐渐增强,支持离线处理和在线查询,实时计算功能也在2015年加入。
- 2016年,大数据平台的第一版发布,进一步提升了数据处理能力。2017年12月成为发展的一个重要里程碑,可能是指平台的升级或关键功能的实现。2018年,演进至QDAS+,这意味着平台朝着更全面、集成的一站式数据治理方向发展,能够支持大规模的数据治理、加工和深入挖掘。
3. **核心组件与服务**:
- 平台的核心特点包括:全域产品数据分层和归一化,确保数据一致性;跨业务的数据价值评估体系,衡量数据价值;统一的数据标准和安全体系,保障数据质量和隐私安全;自助式用户标签创建,提升用户画像精准度;以及跨引擎的计算平台,支持高效的数据处理。
- 此外,图元化的任务配置和多数据源任务处理功能使得平台操作更加便捷,而基于场景化的服务则满足了不同业务场景下的个性化需求。
总结来说,360大数据中心通过不断的技术迭代和业务扩展,构建了一个强大的数据处理平台,为公司的产品分析、决策支持和风险防范提供了坚实的基础。平台的演进不仅体现了技术上的进步,也反映了公司在大数据时代对于数据驱动业务策略的重视。