京东大规模数据中心:网络运维监控与99.9999999%可用性挑战
需积分: 11 54 浏览量
更新于2024-07-18
2
收藏 6.95MB PDF 举报
在2017年的GOPS全球运维大会上,京东分享了其大规模数据中心网络运维监控的经验和挑战。随着京东业务的快速增长,网络规模每年以30%以上的速度扩张,导致公网流量和内部数据中心互连(DCI)流量大幅增加。网络架构也在不断优化,如全国骨干网升级、互联网接入层改造以及DCN从二层向三层转变,期间进行了大量网络割接。
面对日益复杂的网络环境和更高的业务要求,京东的运维团队面临严峻的挑战。以前关注的是网络容量、稳定性和性能,现在则更侧重于系统的高可用性,业务对网络的可用性有着极高的期待,要求达到99.9999999%。网络监控的目标不再是单纯的设备或链路健康,而是从业务视角出发,确保基本连通性、延迟、成功率和稳定性处于正常范围内,即实现网络的高可用性。
在监控设计上,京东明确了三个关键点:一是定义网络是否“好”的标准,这包括满足业务的连通性需求;二是准确识别网络异常,通过构建异常监控项目列表来实时检测网络状况;三是快速做出决策和采取应对措施,根据异常的严重程度和影响范围进行判断和响应。
网络团队意识到,仅仅依赖设备和链路的硬性指标来判断网络状态已经不足以满足业务需求,必须从用户体验出发,确保网络服务的质量。因此,他们将网络监控的重点放在了业务感知层面,通过量化和定性分析,确保网络的可用性和稳定性始终处于可接受的水平。
总结起来,京东在大规模数据中心网络运维监控上的实践,强调了业务导向、全面的监控覆盖和快速的响应能力,以适应不断变化的业务需求和技术挑战。这是一次关于如何在海量数据和高并发环境中实现高效运维的重要分享,对于其他企业在类似环境下提升网络运维效率具有参考价值。
2021-05-01 上传
2021-01-19 上传
2021-10-12 上传
2021-10-12 上传
2022-06-21 上传
2021-12-23 上传
2021-10-14 上传
2021-10-14 上传
husbfever
- 粉丝: 0
- 资源: 9
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫