GitHub的MySQL高可用与主服务发现策略

88 浏览量更新于2024-08-27 收藏 357KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"GitHub的MySQL高可用性实践" GitHub在运维过程中高度重视MySQL的高可用性，因为MySQL是其非git项目的首要数据存储，涉及到站点、API和身份验证等多个关键功能。为了确保服务稳定，GitHub部署了多套MySQL集群，每个集群采用主-副结构，主节点负责写操作，副节点异步复制并处理读请求。主节点的稳定性至关重要，一旦主节点故障，所有写操作将无法完成，直接影响用户提交代码、提问、创建新项目等活动。为了应对主节点故障，GitHub需要快速识别并切换到新的主节点，确保服务不间断。这涉及到故障检测、故障恢复以及服务发现机制。文章指出，故障检测的准确性、故障恢复的可靠性以及跨数据中心的适应性是高可用性解决方案的关键考量因素。GitHub之前的解决方案依赖于orchestrator进行故障管理，以及VIP（虚拟IP）和DNS来实现服务发现。然而，这种方法存在一些局限性，例如可能的假阳性故障检测导致不必要的故障转移，以及在数据中心故障时的处理能力不足。在不断发展的业务需求下，GitHub寻求改进其HA策略，以适应更大规模的运营，并降低宕机时间。新方案旨在减少跨数据中心运维的复杂性，提高在面临数据中心隔离或网络问题时的韧性，同时防止脑裂现象，即两个节点同时宣称为主节点，造成数据不一致。在讨论解决方案时，GitHub考虑了以下几个核心问题： 1. 宕机时间的容忍度：理想的解决方案应尽可能缩短宕机时间。 2. 故障检测的准确性：需要避免误报，防止不必要且可能导致数据不一致的故障转移。 3. 故障恢复的可靠性：故障恢复过程必须能在各种情况下成功执行。 4. 跨数据中心的能力：解决方案需能在低延迟和高延迟网络环境下正常工作，应对数据中心故障。 5. 防止脑裂：确保集群只有一个主节点，避免数据冲突和不一致性。 6. 数据丢失的容忍度：明确在什么情况下可以接受数据丢失，以及允许的最大数据丢失量。通过对这些问题的深入探讨，GitHub开发了一种新的高可用性和主服务发现解决方案，旨在提供更高级别的服务稳定性，同时兼顾数据完整性和系统韧性。这一改进的解决方案详细描述了如何通过优化监控、自动化流程和改进的故障转移策略来实现这些目标，从而提升整个GitHub平台的可靠性。

资源详情

资源推荐

GitHub的的MySQL高可用性实践高可用性实践

GitHub使用MySQL作为所有非git项目的主要数据存储，因此MySQL的可用性对于GitHub的运维来说至关重要。站点本身、

GitHub的API、身份验证等都需要数据库访问。我们运行多个MySQL集群来服务我们的不同服务和任务。我们的集群使用经

典的主-副设置，其中集群的单个节点（主节点）能够接受写操作。其它集群节点（副节点）异步更新主节点的变更并服务我

们的读流量。

主节点的可用性特别地重要。主节点不可用时，集群就不能接受写操作：任何需要持久化的写操作都不能被持久化。任何传入

的变更，例如提交代码、提问题、用户创建、代码审查、新建代码库等等，都会失败。

为了支持写操作，我们显然需要有一个可用的写节点，即集群的主节点。但同样重要的是，我们需要能够识别，或者发现，那

个节点。

遇到一个故障时，比如主节点崩溃的场景，我们必须确保存在一个新的主节点，并且能够快速通告其身份。检测故障、运行故

障恢复以及通告新主节点身份所花费的时间组成了总宕机时间。

本文阐述了GitHub的MySQL高可用性和主服务发现解决方案，这个方案使得我们能够可靠地进行跨数据中心运维、克服数据

中心隔离的影响并实现故障时的短宕机时间。

高可用性目标

本文描述的解决方案是对GitHub先前实现的高可用性（HA）解决方案的迭代和改进。随着我们规模的扩大，我们的MySQL

HA策略必须适应变化。我们希望对我们的MySQL和GitHub的其它服务运用相似的HA策略。

当考虑高可用性和服务发现时，一些问题可以指导你找到一个恰当的解决方案。这些问题包括但不限于：

你能容忍的宕机时间是多久？

崩溃检测的可靠性如何？你能容忍假阳性（过早进行故障恢复）吗？

故障恢复的可靠性如何？它在哪些情况下会失败？

解决方案跨数据中心能力如何？在低延迟和高延迟网络的能力如何？

解决方案能克服完整的数据中心故障或网络隔离的影响吗？

如果有的话，什么机制能够防止或减轻脑裂现象（两个服务器都宣称是指定集群的主节点，都独立地彼此无意识地接受写操

作）？

你能够承受数据丢失吗？到什么程度？

为了说明上述一些问题，让我们先看一下我们之前的HA迭代以及为什么我们要改变它。

远离基于VIP和DNS的服务发现

在我们之前的迭代中，我们使用：

orchestrator用于故障监听和故障恢复

VIP和DNS用于发现主节点

在那个迭代中，客户端通过使用一个名称，例如mysql-writer-1.github.net来发现写节点。这个名称解析为主节点获取的虚拟IP

地址（Virtual IP address，VIP）。

因此，平常的时候，客户端会只解析这个名称，连接解析到的IP地址，然后找到正在另一端监听的主节点。

这个副本拓扑，跨越3个不同的数据中心：

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38698943

粉丝: 2
资源: 900

GitHub的MySQL高可用与主服务发现策略

高性能MySQL_ch05_MySQL高级特性.pdf

给我部署一个MHA高可用配置及故障切换脚本

github的springboot毕业设计

写一个MHA高可用集群代码

mysql数据库巡检脚本下载

mac安装gh-ost

nacos 源码 将nacos改成单机模式

org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'initRecordedTimeTask' defined in URL

web网上火车票购票系统源码及数据库

帮我找一个go语言的开源项目

fastdfs 安装部署

php+zend framework+vue开发的网点对公效能系统，docker+jenkins部署的项目经验简历怎么写？

canal实际使用中如何部署

基于springboot的连锁图书仓库管理系统技术路线怎么写

zabbix搭建过程

自动化部署DolphinScheduler

帮我写一篇prometheus部署的博客

php视频点播系统源码

给我一个网页项目的框架

考研复习-英语二真题考试题集-带答案

最新资源

nacos 源码将nacos改成单机模式