淘宝数据仓库:发展历程与技术选择

需积分: 9 11 下载量 3 浏览量 更新于2024-07-20 收藏 1.26MB PDF 举报
"该文主要介绍了淘宝数据仓库的发展历程、现状、维护以及未来发展规划,强调了选择Oracle RAC作为数据仓库基础架构的原因,并探讨了Oracle RAC的优势与不足。淘宝数据仓库的应用场景广泛,涵盖了个性化推荐、业务分析等多个领域。" 淘宝数据仓库的发展历程始于2004年,从最初的单机DELL6650逐步演进,到2006年采用IBM-P550构建4节点RAC环境,再到2007年的12节点RAC环境,并计划进一步扩展至20节点。这一发展历程反映了淘宝对数据处理能力不断提升的需求。 在选择数据仓库解决方案时,淘宝面临两个主要选项:Teradata和Oracle RAC。考虑到效率、开放性、可扩展性和成本等因素,淘宝最终选择了Oracle RAC。Oracle RAC的优势在于其开放性、技术成熟度、优秀的性能表现、线性扩展能力和相对较低的成本。然而,Oracle RAC也存在技术要求高的问题,需要DBA进行深入的系统优化。 目前,淘宝数据仓库采用的是一个由Oracle和MySQL组成的复杂架构,包括4节点的RAC环境作为ODS层,12节点的RAC环境作为计算层,同时结合Hadoop进行分布式计算。数据源经过ETL处理并与实时同步系统结合,为Web服务器、内部用户、业务分析和个性化推荐等应用场景提供服务。 淘宝数据仓库的应用案例丰富多样,例如“淘我喜欢”功能利用数据仓库进行个性化商品推荐,而“猜你喜欢”则通过数据分析推测用户的购物喜好。此外,数据仓库还支持内部系统的运行,帮助淘宝提升运营效率和用户体验。 淘宝数据仓库的12节点物理拓扑图展示了其强大的数据处理能力,上线前的测试表明,5台CX3-80每台配备120块硬盘,足以证明淘宝数据仓库的高承载量和处理性能。随着技术的不断进步和业务需求的增长,淘宝数据仓库的未来发展将更加注重技术创新和容量扩展,以满足日益复杂的电商数据分析需求。