这个由两部分组成的系列文章探讨了Aruba的网络分析引擎(Network Analytics Engine, NAE),这是一个内置在ArubaOS-CX网络操作系统中的用于网络保证和补救的独特框架。第一个博客使用网络分析来更快地发现和修复网络问题深入了解NAE架构以及如何加速网络故障排除。本博客更深入地讨论了实现示例和用例。
在当今快节奏的数字世界中,顾客的期望从未像现在这样高过,顾客的忠诚度也从未像现在这样转瞬即逝。这就为破坏客户体验的IT基础设施问题留下了很少的空间。IT团队承受着巨大的压力,要在潜在的问题造成计划外的停机之前找到并修复它们,并不断改进用户体验。
网络分析引擎(Network Analytics Engine)是一种创新,它内置在ArubaOS-CX中,运行在Aruba 8400和8320核心和汇聚交换机上。NAE是一种独特的内置框架,用于网络保证和补救,允许通过使用简单的脚本代理进行监视、故障排除和方便的网络数据收集。
很简单,NAE允许您实时分析问题。网络运营商获得必要的见解,排除和解决问题,或者更好的是,让NAE根据既定政策采取纠正措施。
让我们来看看NAE可以帮助网络运营商的一些方法:
识别网络异常和安全漏洞
运营商通常希望在网络行为偏离规范时得到通知。行为的改变可能是由于计划的事件或计划外的事件。在计划事件的情况下,它是为了确保网络是灵活的,以吸收产生的变化。在计划外事件的情况下,操作人员可能希望找到异常的根本原因。在一些情况下,比如添加安全摄像头或建筑管理系统等物联网设备,操作员可能会开始监控跨越正常操作模式或阈值边界的交通参数或模式。但首先,需要建立基线来设置这些阈值。
NAE基线交通模式自动设置网络的阈值。它在预定的时间内观察用户选择的交通参数,并提供正常运行条件下的基线。这些参数可以是与网络相关的,如OSPF邻居健康状况,也可以是与设备相关的,如收发器功率级别。一旦设置了阈值,NAE就会继续观察这些参数。如果一个阈值在一段时间内缓慢变化,NAE将其视为新的规范,并将其纳入新的阈值。另一方面,如果在监控的流量参数中观察到峰值,则向操作员发送警报。
流量分类器或acl可以用来计算非常特定的流量类型。一个常见的例子是查看DHCP请求和响应的比率是否在某个阈值之内。NAE在正常运行条件下观察请求和响应,并设置阈值。如果DHCP request/response ratio突然出现原因不明的峰值,NAE会向运营商发送告警。
执行更快的根本原因分析
当VoIP/UC会议通话出现语音质量差或视频接收不良,网络运营商收到终端用户的投诉时,运营商会尝试关联网络事件并找出根本原因。应用程序和基础设施的事件日志被收集到日志分析工具中以进行根本原因分析。
由于拥塞或数据包丢失而增加的延迟可能会导致较差的语音质量或糟糕的视频接收。通常立即的下一步是围绕事件收集额外的上下文。这些附加信息与原始事件一起记录,并发送到日志分析工具进行根本原因分析。

图1:根本原因分析
相反,可以在用户体验到较差的语音质量时触发NAE代理,以收集围绕该事件的额外开关上下文在真正的时间.例如,NAE代理可以收集诸如“STP tns过多”之类的事件和诸如“STP链路状态”之类的上下文。立即收集信息可以在事件发生时提供更准确的上下文表示,并帮助网络运营商更快速地深入到根本原因。如果事件是间歇性的,并且操作人员必须等待一段不确定的时间才能再次发生事件并重复循环,那么这一点特别有用。

图2:用NAE更快地分析根本原因
使用网络分析的更多方法
NAE可用于广泛的用例,包括:
- 系统健康—NAE代理可以监视系统资源(如CPU和内存)的健康状况。这些代理跨时间监视和跟踪交换机中的变化。当CPU处于高位时,将CPU警报与关于系统上下文的详细信息一起归档,以确保快速解决潜在的重要警报的根本原因和解决方案。
- 网络分析-拥有监控系统中几乎每一个统计数据的能力,并与时间序列数据库结合进行分析,提供了广泛的用例。收发器运行状况和OSPF路由运行状况是两个例子。
- 安全- NAE可以与IntroSpect等用户和实体行为分析(UEBA)安全工具一起检查流量并检测异常行为。检查物联网流量的虚假行为是这个用例的一个例子。
- 应用程序的可见性—NAE可见性列表(使用L2/L3/L4流量分类器)使代理能够监控流经网络核心的应用程序流量。通过NAE可见性列表,操作人员可以设置列表来监视Office365或谷歌Suite等云应用程序,并在网络中跟踪它们的性能。当检测到降级时,可以自动执行健壮的网络诊断。
- 网络优化- NAE的深度流量可见性、分析能力和REST api可用于网络优化。例如,利用应用程序性能的知识,运营商可以调整路由的权重,将应用程序流量引导到不同的链路或服务提供商,以确保为业务提供更好的服务。
是时候用更好的方法进行故障排除了
传统上,围绕网络事件的上下文是通过在设备外部运行脚本来收集的,通常是在事件发生之后。事件上下文收集的延迟使得它在识别异常、根本原因分析和性能调优等方面用处不大。在8400和8320交换机上运行的AOS-CX内置的交钥匙NAE实时收集围绕网络事件的上下文,为网络运营商提供了自由和灵活性,以新的速度和准确性来响应网络事件和异常,这在当今敏捷的业务环境中至关重要。
更深
请阅读本系列的第一篇博客。”使用网络分析来更快地发现和修复网络问题."
阅读博客ArubaOS-CX:面向移动和物联网时代的现代可编程网络,作者是阿鲁巴大学校园转换业务部门副总裁兼总经理汤姆•布莱克。