看到网络设备上的CPU利用率很高总是一种不舒服的感觉。设备工作越困难,出现问题的可能性就越大。

有时,额外的利用率是可以预期的,例如,当您的存储群集执行异地备份时。但是在其他时候,可能的情况并不能立即显现出来。

Today, we’ll go through a few common reasons for high CPU utilization on network devices and如何解决它们。

您的设备告诉您什么?

几乎所有使用计算机一段时间的人都必须打开任务管理器,才能找到导致计算机运行缓慢的过程。许多网络设备也允许您执行此操作。

例如,在运行IOS的Cisco设备上,您可以运行“显示按5秒排序的cpu进程”,以查看在5秒钟的时间间隔内CPU利用率从最高到最低的进程的排序列表。

Google排名前五位的进程名称以及诸如“ high cpu”之类的关键字。您想回答的问题:

  • 您看到的利用率百分比正常吗?
  • 其他人为缓解这一问题做了什么?

最近有任何配置更改吗?

首先要确定的事情之一是最近是否对设备的配置进行了任何更改。有几种方法可以解决此问题:

  • Navigate to the device’s dashboard in Auvik. Go to Documentation > Configurations. Look to see if there’s been a recent configuration backup. If there has, use 奥维克 Compare feature to see what was inserted, deleted, or modified in the device’s configuration.
  • 如果您为有问题的客户帐户启用了配置备份警报,请检查您的电子邮件收件箱或PSA中是否有与此设备最近触发的警报。

如果进行了更改,则可能会影响CPU利用率。使用Auvik的配置还原功能还原您的更改。或使用设备的GUI或CLI手动还原更改。

CPU使用率下降吗?如果不是这样,则可能不是造成配置更改的罪魁祸首。让我们继续下一个可能的原因。

第1层最近有变化吗?

查看您的网络拓扑。在过去几天或几周内,在交换机上查找诸如接口状态不匹配之类的警报。电缆是否已移动?

注意事项:

  • 寻找看起来不适当的可疑设备。他们会吸引很多流量吗?
  • 如果进行了接线更改,请尝试在适当的维护时段内恢复它们,以查看是否与CPU利用率下降相关。

您需要增强吗?

如果网络上的设备数量或流量在稳步增长,则可以推断该设备将增加税收。可能是以下情况:

  • 吞吐量不断增加
  • 数据包处理,例如QoS整形器和策略
  • 路由表填满
  • 辅助服务,例如DNS,DHCP或访问控制列表。
    • 可以在其他地方卸载任何东西吗?例如,如果您的负担过重的防火墙正在处理大量子网的DNS和DHCP,是否可以将其中一些工作转移到第3层交换机?
  • 像SNMPv3这样的加密密集型进程或与设备的大量SSH会话。

如果这是罪魁祸首,您最终将需要在现有平台上投入更多资源,或将服务委托给其他设备或机器。

您看到瓶颈了吗?

每当数据包无法自由流动时,它们就会排队。大量的缓冲占用了CPU。排队的常见原因包括来自快速接口的大量流量试图通过慢得多的接口。

始终无法使用的缓慢的Internet连接会导致大量缓冲。对您的客户的建议可能是升级链接。如果是本地链接,则可以考虑通过链接聚合或NIC分组来增加管道的大小。

“显示内存”和“显示缓冲区”之类的命令可以帮助您确认是否存在瓶颈。

您看到广播风暴了吗?

来自ARP或以太网之类的协议的流量突发会非常迅速地导致CPU崩溃。例如,如果您在特定接口上看到大量广播流量,则可能需要对受影响的接口进行端口镜像,然后使用Wireshark之​​类的工具嗅探流量。

根据发现的内容,您可以尝试以下几种方法:

  • 在接口上启用以太网风暴控制,以在检测到大量流量时自动关闭受影响的端口。这有助于防止网络中断。
  • 减少动态ARP缓存,尤其是当您处于设备频繁流失的环境中时。

最近有任何生成树更改吗?

生成树协议 防止第2层循环。

通常,生成树是一个在软件中运行并且不会利用硬件卸载优势的过程。交换机上配置的VLAN和活动接口越多,拓扑发生变化时,调和流量并重新路由流量就需要更多的CPU时间。

如果您看到大量的 生成树更改 在网络中,这可能会使您的CPU更加努力地工作。

启用CPU卸载

某些设备提供了通过软件(使用设备的CPU)或在硬件(使用ASIC芯片)上执行某些功能的选项。尽可能将任务从CPU卸载到其他专用硬件上。

与供应商的支持团队合作

如果您已完成调查,但仍然不知道CPU使用率过高的原因,则该设备的支持小组可能会有所帮助。有时存在导致某些内容失控的软件错误或非常特定的设备配置。他们将努力重现问题,并找出根本原因和解决方案。