云数据中心网络运维的苦与乐云数据中心网络运维的苦与乐
前几年大家讲 SDN 比较多的是怎样利用控制器,像 OpenDayLight、ONOS 这些东西,其实在讲怎样做一个 Driver、怎样做
控制。大概从去年开始,SDN 开始跨入应用的时代,现在大家更多地在讲实际要做的事情、应用场景是什么。由于大家对
SDN 有多种不同的理解,在本文中我想把话题聚焦一下,落到云数据中心的网络运维这个点上,分享一些运维中的实际例
子。没有大的篇章,只说说我们遇到的那些苦与乐。
因为本文话题的场景是云数据中心,所以我们有必要先看一下云数据中心里面的网络是什么样子。
云数据中心网络运维的苦与乐
简单来说,云数据中心的网络环境发生了如上图所示的三大变化,网络由物理的变为虚拟的;流量由南北的变成了东西的;配置
由静态的变成了动态的。以前数据中心的网络比较简单,那时数据中心的网络运维也比较干净;后来随着虚拟化技术的进入,
这个网络变得复杂起来。由于业务形态和网络模型的变化,流量随之由南北向为主变成了东西向为主,这个变化也是目前运维
技术特别头疼的题目。最后一个让运维人员头疼的变化是,网络配置的变更随着业务的发展已经变得动态且无休止。
此外,众所周知还有一些中国特色的网络,比如互联互通的问题,以及抗 DDoS 的产品和服务需求巨大。本文试图厘清在这
样的网络环境下怎样解决运维的难题。
那些熟悉的“车祸现场”
让我们先看几个运维人员特别熟悉的“车祸现场”吧。
第一个比较常见的问题是没有收到报警但是用户报障。当然,这并不是云数据中心网络特有的现象,只不过是在云数据中心这
个问题更加突出。以前运维看到的网络是“租户—数据中心—运营商”,现在看到的网络在数据中心和租户之间多了一个“云平
台”——这里增加了一个复杂的拓扑层。一般情况下网络和服务器可能是两个团队,现实情况下网络的健壮性要高于服务器,
当出现网络风暴的时候,最先被打趴下的往往是服务器——以及上面的租户。这就是为什么网络没有报警而用户却在报障。
第二个问题是常见的 Loading 故障定位。运维人员经常要和开发团队去讨论到底是网络的问题还是应用的问题,往往耗费很
大精力比如用数据证明交换机上没有 error、能否看到 TCP 会话、甚至借助 Web 统计工具的结果来区分故障边界。
云数据中心网络运维的苦与乐
第三个常见的问题是 UDP 4789。尽管 VxLAN 已经标准化并且很多地方都在用,但实际上网络运维人员并不能看到 HTTP、
DNS、ARP 等包头信息。这也给运维工作带来了很大的挑战。