运维黄金法则：85条关键指导

运维

34 浏览量更新于2024-08-31 收藏 156KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"运维的85条规则是Jon Prall在2007年提出的一系列运维实践准则，旨在指导运维人员如何有效地管理和维护IT系统。这些规则在2010年进行了更新，并强调了在运维工作中应遵循的重要原则和注意事项。" 1. 容量优先：在面对故障时，首要任务是恢复服务，而非立即进行优化。在系统宕机时，应该迅速恢复设备以确保业务连续性。 2. 数据记录与备份：对于关键系统如PostgreSQL，要全面记录，包括WAL文件、Slony复制和快照等，确保有足够的数据恢复手段。 3. 避免过度优化：优化可能会带来新的问题，因此在进行系统改进时，务必确保新工具或变更能顺利融入运维流程，避免打乱团队原有的工作计划。 4. 简单化运维：尽量保持系统简洁，避免不必要的复杂性，这有助于减少出错的可能性和后期维护的难度。 5. 缓存策略：缓存的使用应当谨慎，其目的是提升用户体验，而非增强系统的容量。过度依赖缓存可能导致新的不稳定因素，甚至引发系统崩溃。 6. 合适的工具：选择适合的工具，既不一味追求自研，也不盲目购买商业产品，应根据实际需求来选择。 7. 厂商谈判：做好充分准备，以便在必要时能够切换供应商。了解市场，掌握谈判主动权。 8. 冗余服务器：始终保留N+1的服务器配置，作为故障时的备用。在使用负载均衡时，要考虑冗余服务器的实际可用容量。 9. 数据安全：数据丢失可能给公司带来巨大损失，因此应不惜投入来保障数据的安全。 10. 并行处理：提倡并行思维方式，如MogileFS的例子所示，确保系统具有自我复制和恢复的能力，实现多对多的数据同步。 11. 继续学习：不断阅读和理解文档，如RTFM（Read The Fine Manual），保持对新技术和设备的熟悉，以应对各种复杂情况。以上是运维的85条规则中的部分核心内容，它们体现了运维工作的核心理念，即确保系统的稳定、高效和安全性。在实际操作中，运维人员应灵活运用这些规则，以适应不断变化的技术环境和业务需求。

资源详情

资源推荐

运维的运维的85条规则条规则

2007 年，时任虚拟世界游戏公司 Vivaty 运维副总裁的 Jon Prall 在他的个人博客上发表过一篇《运维的85条规

则》。2010 年他跳槽到视频电话公司 Tango 之初，做了两处更新，兹翻译如下

1.容量第一，优化第二——这条规则在故障发生时生效。在宕机的时候别研究什么优化，先恢复设备。

2.保留所有可以捕获的记录——以 PostgresQL 为例，包括有 WAL 文件，Slony 复制，快照技术，基于硬盘的 DB 版本(快照

附带的)

3.不要因为优化引入更多问题。通常我们解决问题时做出来的东西都会转变成之后运维工作的负担。请确认为运维工作开发的

那些工具已经完全交付使用。这些东西经常无法正常运行结果要返回开发组重来。更重要的，这种变更请求通常会打破团队原

本安排好的工作计划。

4.保持简单，不要让事情变得太复杂，聪明的你一定可以做到的。

5.谨慎使用缓存以保护那些难以水平扩展的资源。当然，如果你可以水平扩展它，那么给他加缓存层就不用考虑太多。一旦用

上了缓存层，它的目的应该是提高最终用户的访问性能，而不是增加网站的容量。否则，你不过是给自己加上了一个新的非常

不可靠的瓶颈。他们潜在的负面影响可能危及整个系统。事实上缓存层失效带来的，经常是雪崩式的级联故障。

6.不要什么都自己写代码实现，也不要什么都从厂家买——要在适当的时候采用适当的工具。

7.谈判——和真正有实力的厂家谈判的唯一办法就是提前做好功课，准备好一切可行项。这样一旦有必要，你可以从你的首选

厂家里选择离开。不用搞虚张声势那套了。

8.永远要准备好 N+1 的服务器。如果 N 等于 1，那么不管什么情况都不要动用这个 +1 的设备，专职等待 N 失效后的接管。

当你使用冗余的服务器来均衡负载的时候，就只有49%或者更少的容量可管理了。通常我们会获得 N+2 的机会——一定要好

好利用起来。

9.数据丢失是任何一家公司都不敢冒的风险——这是一条普遍真理。丢失数据造成的损耗远远超过用于保证数据不丢失的花

费。

10.随时随地的并行化——这是一种很重要的思维方式。比如，如果 MogileFS 设置为位置感知的方式并且需要实时复制，那

么每个 MogileFS 服务器都必须可以复制自己的数据到负载均衡器指定的另一端。只要有可能，尽量实现这种多对多的方式。

11.RTFM——就在今天我还要阅读一对 RAID 卡的说明书来比较他们微妙的差异。魔鬼在于细节。像做家庭作业一样读文档

吧！

12.了解每一层上的瓶颈以及如何发现瓶颈。必须要知道你是在磁盘，内存，还是 CPU 上受限制了，搞清楚这个其实挺简单

的。

13.要有一个固定的容量管理流程——而且是主动式的，不是被动式的。要知道系统的弱点在哪里，让实际负荷曲线跑到容量

曲线之上是极度危险的。

14.不促成失败，也不惧怕改变。

15.不要吸进你自己的废气。别以为你现在的工作结果会变成未来你如何工作的动力。

16.运维人员要写的代码是运维工具，而不是应用软件。

17.不要低估运维团队中项目经理、技术作者、金融分析师的价值。这些人通常比你给的工资值钱多了。

18.监控所有的东西——报警只用在异动的时候，其他的都记录下来供趋势分析。

19.要有一个固定的流程来查看每个地方的趋势数据。

20.不要让监控太吵闹，那样很快就变得没作用了。

21.确保你的监控系统简单易用到公司里每个人都能上手。监控数据指标转换成为业务指标、市场指标和销售指标等等的频率

可能高的让你吃惊。

22.只在可以做出相应改变的地方做总结，否则就是白白浪费时间。

23.总结要公开，同时附上事件相关的数据。这样大家可以很容易的找到总结的关键点并且跳转到对应数据。

24.要让技术的每一个点都有人员在负责。

25.同时为这些负责人准备好备份人员。

26.不断发招聘——哪怕没有名额了。

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38641111

粉丝: 1
资源: 931

运维黄金法则：85条关键指导

信息化运维文档管理制度

某单位运维变更管理制度

运维实战：85条关键规则确保高效与稳定

运维规则：服务器选购与数据库运维36条规则详解

Linux运维

运维：使用自动化工具提高运维效率

数据库运维自动化：提升运维效率，降低运维成本，打造高效运维体系

MySQL数据库运维管理技巧（数据库运维秘籍）

解放运维人员：Oracle数据库自动化运维指南

运维服务器告警规则阈值,运维告警管理困难重重，我是怎么做到的

智能运维纲要aiops

python运维管理系统

echarts 运维驾驶舱

大模型 生成运维脚本

python运维笔记md文档

linux运维工程师项目案例

goldengate企业级运维实战

cmdb运维管理平台搭建

ops 实现自动化运维

shell常用运维脚本

最新资源

大模型生成运维脚本