微博微博CacheService架构浅析架构浅析
微博作为国内最大的社交媒体网站之一,每天承载着亿万用户的服务请求,这些请求的背后,需要消耗着巨大的计算、内存、
网络、I/O等资源。而且因为微博的产品特性,节假日、热门事件等可能带来突发数倍甚至十几倍的访问峰值,这些都对于支
撑微博的底层基础架构提出了比较严苛的要求,需要满足:
1.每秒数十万的用户请求
2.数据更新的实时性
3.服务请求的低响应时间
4.99.99%以上的服务可用性
为了满足业务的发展需要,微博平台开发了一套高性能高可用的CacheService架构用于支撑现有线上的业务系统的运转。
但“冰动三尺非一日之寒”,微博的Cache架构也是经历了从无到有,不断的演进过程。
基于MySQL的Web架构
最初的微博系统,系统的访问量都比较小,简单的基于数据库(MySQL)已经能够满足业务需求,开发也比较简单,简单的架构
示意图如下:
随着微博的推广和名人用户入驻微博,带动了用户量的快速增长,访问量也与日俱增,这个时候,简单基于MySQL的架构已
经略感吃力,系统响应也比较缓慢,因为MySQL是一个持久化存储的解决方案,数据的读写都会经过磁盘,虽然MySQL也有
buffer pool,但是无法根据业务的特性做到很细粒度的控制,而在微博这种业务场景下,配置了SAS盘的MySQL服务单机只能
支撑几千的请求量,远小于微博的业务请求量。
基于单层Cache+MySQL的Web架构
针对请求量增大的问题,一般有几种解决方案:
1.业务架构改造,但是在这种场景下,这种方案的可行性不高。
2.MySQL进行从库扩容,虽然能够解决问题,但是带来的成本也会比较高,而且即使能够抗住请求量,但是资源的响应时间
还是无法满足期望的结果,因为磁盘的读取的响应时间要相对比较慢,普通的15000转/分钟的SAS盘的读取延迟平均要达到
2ms以上。
3.在MySQL之上架构一层缓存,把热门请求数据缓存到Cache,基于Cache+MySQL的架构来提供服务请求。
考虑到整体的改动和成本的因素,基于方案3)比较适合微博的业务场景。而应该使用什么类型的Cache比较合适呢?
比较常见的Cache解决方案有:
1.Local Cache,通过在Web应用端内嵌一个本地的Cache,这种的优势是访问比较快,但是存在的问题也比较明显,数据更
新的一致性比较难保证,因此使用的范围会有一定的限制。
2.单机版的远程Cache,通过部署一套远程的Cache服务,然后应用端请求通过网络请求与Cache交互,为了解决应用的水平
扩展和容灾问题,往往通过在client层面来实现数据的路由等。
3.分布式的Cache,Cache服务本身是一个大集群,能够提供给各种业务应用使用,并提供了一些基本的分布式特性:水平扩
展、容灾、数据一致性等等。
从系统的简单性考虑和微博场景的适用问题,最终选择了2)的方式,基于开源的Memcached来作为微博的Cache方案。
Memcached是一个分布式Cache Server,提供了key-value型数据的缓存,支持LRU、数据过期淘汰,基于Slab的方式管理内
存块,提供简单的set/get/delete等操作协议,本身具备了稳定、高性能等优点,并在业界已经得到广泛的验证。它的server端
本身是一个单机版,而分布式特性是基于client端的实现来满足,通过部署多个Memcached节点,在client端基于一致性
hash(或者其他hash策略)进行数据的分散路由,定位到具体的memcached节点再进行数据的交互。当某个节点挂掉后,对该
节点进行摘除,并把该节点的请求分散到其他的节点。通过client来实现一定程度的容灾和伸缩的能力。