唯品会大数据实践:数据平台与应用建设

版权申诉
0 下载量 64 浏览量 更新于2024-07-04 收藏 2.14MB PPTX 举报
"唯品会是中国知名的在线折扣零售平台,专注于品牌特卖。这份文档主要介绍了唯品会在数据资产管理及大数据平台建设上的实践和经验,包括离线计算分析平台、实时计算平台的演化、技术选型以及数据应用在业务和产品运营中的作用。" 在【中国数据资产管理峰会-唯品会大数据】的分享中,唯品会展示了其在大数据领域的深度探索。首先,关于唯品会的部分,我们了解到这是一个以大数据驱动的电商平台,注重通过数据资产的管理和分析提升运营效率和服务质量。 在数据平台建设方面,唯品会构建了离线计算分析平台,经历了从2012年底到2014年初的不断优化和扩展。早期,他们采用CDC调度配合Greenplum进行数据处理,随着业务增长,逐渐转向自建调度平台,并引入Hadoop进行大规模数据处理。在这个过程中,关键的演化步骤包括每日、每小时甚至分钟级别的作业调度,以及对Hadoop流量的逐步迁移。到了2013年第四季度,元数据管理系统和数据质量工具的引入进一步提升了数据处理的效率和准确性。 实时计算平台的建设同样重要。唯品会采用了Binlog2Kafka、MySQL2Kafka的方式进行数据实时接入,比较了Spark和Storm等实时计算框架,并面临了稳定性挑战。他们致力于构建开放平台,解决实时数据处理中的问题,如Redis的使用挑战,以满足业务快速响应的需求。 在大数据应用建设上,唯品会利用数据进行业务和产品运营的优化。例如,通过恶意用户识别和风控系统来保障交易安全,利用商品品牌推荐和个性化排序提高用户体验。数据产品如仪表盘、数据魔方、比价系统和地图服务等,都是基于精准推荐基础算法库和数据细分人群设计的。同时,用户Lookalike分析和唯品会用户画像的构建,为个性化服务提供了强大的支持。 在技术选型和经验方面,唯品会选择了Hadoop和Greenplum混合平台,兼顾了大数据量处理能力和高效查询需求。他们强调保护现有投资,利用Hadoop进行海量数据分析,而Greenplum则用于复杂计算和分析师适配的交互式查询。 唯品会的数据资产管理涵盖了平台搭建、实时与离线计算的融合、数据应用的深度挖掘等多个层面,体现了大数据在电商领域的重要价值,为企业数据驱动的决策和业务创新提供了有力支撑。这些经验和实践对于其他寻求大数据转型的企业具有很高的参考价值。