睿易-排障宝典

最新编辑 2020-12-30

篇1:二三层连通性常见故障检查项

一)配置类故障

1、NBR路由器上DHCP地址池需要和接口的IP对应,否则会导致对应IP段的终端无法上网。

原理

NBR路由器上的DHCP地址池,一般都设置默认网关为NBR上某个接口/子接口的IP地址,两者需要保持同步,下联终端才能上网。


【常见故障】

修改了接口IP之后,对应DHCP地址池中“默认网关”没有进行相应修订,导致对应IP段的终端无法上网。

1.png

2.png


【解决办法】

    修订DHCP地址池中相应配置,与接口IP地址保持一致。


2、修改DHCP地址池IP段、默认网关等配置后,已获取过IP地址的终端设备没有进行重启等动作来触发重新获取IP地址,导致这种终端设备无法上网。

【原理

基于DHCP协议,下联终端通过DHCP获取到IP地址之后,在租约到期前,终端将一直持有这个IP地址。即使DHCP Server端配置发生变化,现有DHCP协议无法在DHCP Server端触发下联终端重新获取IP地址。


【常见故障

        a) NBR先配置了DHCP地址池 192.168.10.1/255.255.255.0,租约为4个小时。

        b)下联交换机接入后分配到IP地址192.168.10.3,默认网关为192.168.10.1。

        c) NBR上修改DHCP地址池为 172.16.30.1/255.255.255.0网段,但是此时交换机认为之前已分配的192.168.10.3的租约还没到期,将继续使用这个IP。这种情况下,由于交换机的默认网关192.168.10.1已经不存在,导致交换机无法上网。


解决办法

在修改DHCP地址池相关配置后,对之前已经获取过IP地址的终端设备进行重启操作,触发重新获取IP地址。


3、中间链路的交换机缺乏VLAN配置,导致VLAN不通

【原理】

    通过VLAN划分网段,需要沿途交换机上都有相应的VLAN配置。


常见故障

3.png

    AP1配置某个SSID的用户VLAN为VLAN20,VLAN 20的地址池在EG上。那么AP1上联的交换机1的接口配置是trunk && allow 20, 并且有vlan 20的配置。如果没有vlan 20配置,那么交换机1的这个环节vlan 20就不通,就会导致此SSID的无线用户访问不了外网。


【解法办法】

在交换机1上补齐VLAN配置,并且在沿途接口上允许此VLAN通行。


4、三层组网的场景,地址池配置在核心上,对应的地址段需要在网关上配置回指路由。

【原理】

地址池配置在核心上,核心的默认路由指向路由器(NBR),从 终端->核心->路由器这个方向上的路由是完整的。从 路由器->核心->终端 这个方向上的路由,需要在路由器将 终端所在的地址段的路由指向核心交换机,这类路由,也叫回指路由。回指路由缺失,会导致上述  路由器->核心->终端 这个方向上的报文不通。


【常见故障

在核心上配置地址池后,忘记在路由器上配置相应的回指路由。


【解决办法

补齐回指路由。

[说明:LAN口的源进源出功能,在大部分场景可以代替回指路由的功能,具体参见对应配置手册]


5、设备互联trunk接口的native VLAN不一致,导致某些VLAN单向不通。【高阶问题】

【原理】

    两台交换机之间互联的口,一般都需要设置为trunk口,并且设置native VLAN为同一个(常见的一般都设置为native VLAN 1)。Native ID不一致就容易出现单向报文不通的故障。

【常见故障

    以NBS3100 -> 核心交换机 -> 路由器 这样的拓扑为例。

4.png

如上拓扑,由于核心和NBS3100的互联接口的trunk native ID不一致,导致NBS3100配置的管理IP无法上网。

具体原理:

    1. 从NBS3100 --> 核心交换机 方向的报文: NBS3100发出的报文是vlan 1999,由于NBS3100上联口的native vlan是1,因此出去的报文是带 vlan tag 1999;核心接收到此报文,继续带vlan tag 1999,因此,从vlan 1999拿IP地址。

    2. 从核心交换机->NBS3100 方向的报文:报文带vlan tag 1999,从核心出去的口(即连接3100的口)native vlan是1999,因此,剥离掉vlan tag。报文到达3100之后,由于3100这个口的native vlan是1,所以,带上vlan tag 1,但是 3100的管理vlan是1999,因此,报文回不到3100的CPU,无法被接收。


【解决办法

    将核心交换机下联NBS3100的端口配置为trunk native 1。

    [说明:AP的管理VLAN由上联交换机端口的trunk native ID决定,比较特殊,跟此例不冲突]

二)环境类故障

常见的环境类故障一般是线缆问题导致协商速率低,或者丢包、错包严重。

排查方法:查看端口协商速率、查看端口报文统计。

三)容量类故障

指mac地址表、arp表等表项容量到达上限,导致无法进行mac地址学习、arp学习,进而导致通路异常。

排查方法:查看MAC地址表、ARP表、DHCP地址分配记录,看是否接近容量上限。查看系统日志,看是否有相关超限告警记录。


版权所有©2014-2019 锐捷网络股份有限公司