WLAN网络维护优化指导手册v7

时间:2023-01-12 19:18:45  热度:0°C
WLAN网络维护优化指导手册(V1/0)湖南公司 网优中心2011年8月目 录第一章 设备维护篇31/ AC故障问题31/1 上线bas错误问题31/2 发生上线bas错误的原因及案例分析51/3 错误话单问题101/4 发生错误话单的原因及案例分析111/5 错误话单问题小结141/6 其他AC设备故障152/ AP故障问题182/1 AP设备问题202/2 POE交换机问题222/3 断电问题242/4 传输问题252/5 数据配置问题26第二章 网络优化篇301/无法搜索到移动信号问题301/1无法搜索到网络问题排障流程311/2无法搜索到网络问题案例322/无法关联问题422/1无法关联问题排障流程432/2无法关联问题案例433/无法上网问题503/1无法上网问题排障流程503/2无法上网问题案例514/速度慢问题634/1速度慢问题排障流程634/2速度慢问题案例645/掉线率高问题905/1掉线率高问题排障流程905/2掉线率高问题案例916/用户不能正常登录问题996/1用户不能正常登录问题处理流程1006/2用户不能正常登录问题案例101第一章 设备维护篇1/ AC故障问题1/1 上线bas错误问题上线bas错误产生原因分析:上线bas错误的定义:在认证过程中ac返回了网络错误的错误码(4),或者返回未知错误码,或者接收ACK-CHALLENGE或ACK_AUTH包超时15秒失败,一般认为是网络或设备原因。在用户上线流程图中,和发生上线bas相关的交互步骤:(1) 如果查询成功,Portal Server向AC请求Challenge;(2) AC分配Challenge给Portal Server;(3) Portal Server向AC发起认证请求;(4) 而后AC进行Radius认证,获得Radius认证结果;(5) AC向Portal Server送认证结果; 用户上线Chap认证流程图上线bas错误包括以下四种情况:(1)AC未发送Ack_challenge、Ack_auth或者发往Portal服务器的Ack_challenge、Ack_auth丢失。(2)Portal服务器接收Ack_challenge、Ack_auth超时15秒。(3)AC发往Portal服务器的Ack_challenge或者Ack_auth的报文带有errcode 4信息。以下2种情况AC将发送带有错误码4的报文:AC 在准备发送 Ack_challenge时/ 发现Req_challenge报文中的保留字段不为 0 或者AC 没有能产生16 位的挑战值,此时AC 将发送携带错误码为4的Ack_challenge报文到Portal/表示AC设备告诉Portal Server此用户请求Challenge失败。 AC在收到REQ_AUTH时/ 发现该报文中的REQ_ID 和之前Req_challenge中的REQ_ID 不相等,从而认为该用户登录操作出现异常,发送携带有错误码4的AUTH_ACK报文到Portal,表示AC设备告诉Portal Server此用户认证失败。(4)AC设备设计***,在发往Portal服务器的Ack_challenge或者Ack_auth的报文中带有其他未知errcode值信息。上线bas错误产生的主要原因:(1) AC设备问题(2) 参数设置问题(3) 设备性能问题(4) 网络丢包问题1/2 发生上线bas错误的原因及案例分析1/2/1 AC设备问题主要原因:(1)AC因设计***,在发往Portal服务器的Ack_challenge、Ack_auth的报文中带有其他未知errcode值信息。(2)AC内进程发生错误导致无法响应Portal服务器的请求,导致Portal服务器无法接收到响应报文,记录为上线bas错误。(3)AC和Portal之间通过UDP报文进行交互,在交互过程中UDP端口学习错误,将导致Portal无法接收到正确的响应报文,发生上线bas错误。(4)网络丢包导致AC和Portal之间的数据包丢失重传,因丢包重传引发超时,发生上线bas错误。相关案例分析:案例一:AC响应Portal服务器的认证报文中携带有未知errcode值,发生上线bas错误。故障描述:某厂家现网AC发生认证接通率低的问题,通过抓包分析发现,在AC相应Portal的报文中存在errcode 10。AC设备版本设计***导致在发往Portal服务器的Ack_challenge、Ack_auth的报文中存在错误代码errcode 10,此代码不符合移动集团规范,Portal将带有errcode 10消息的响应报文记录为上线bas错误。导致用户认证失败。解决方案:依据中国移动WLAN用户接入流程技术规范(WEB)V3/0/0要求,在AC版本中,将errcode 10值修改为符合规范的errcode值,解决因未知errcode值导致的上线bas错误。案例二: AC内认证模块异常退出,导致发生上线bas错误。故障描述:某厂家设备出现大量上线BAS错误通过AC日志分析发现AC认证模块发生重启的现象。进一步根据AC调试信息进行定位:分析认证代码后发现认证模块在发送停止计费时有空指针的现象。如果进程发生空指针那就会出现异常,从而引起进程退出。分析认证逻辑后发现在认证模块启用了STOP机制,也就是防止用户吊死在Radius Server的功能情况下发送STOP停止计费报文就会有空指针的风险,这就会导致认证模块异常退出。在认证模块退出情况下,如果发起认证请求,则AC无法响应报文challenge或Auth报文导致认证,就会造成上线bas错误。解决方案:通过升级新版本,修改认证模块代码,解决因认证模块异常退出而发生上线bas错误的问题。案例三:交互过程中AC学习UDP端口号错误,导致发生上线bas错误。故障描述:AC和Portal之间通过UDP报文进行交互。通过抓包发现AC存在UDP端口号学习错误的问题。在交互过程中,如果期间有其他用户进行认证交互,AC会学习到其他用户的端口号。以这个端口号给Portal回应确认报文,AC无法识别该确认消息,发生上线bas错误。用户将显示认证失败,不能正常登录使用。 2011-03-02 11/18/53/251408 igw8021x2248/ P STA(10/0/20/75) Receive REQ_AUTH from Portal Server(221/176/1/140)/ port/39777 size/472011-03-02 11/18/53/291442 igw8021x2248/ P STA(10/0/23/138) Receive REQ_LOGOUT from Portal Server(221/176/1/140)/ port/54555 size/162011-03-02 11/18/53/370251 igw8021x2248/ P STA(10/0/20/75) Send ACK_AUTH with Errcode 0 to Portal Server(221/176/1/140)/ dest port/54555 size/16 解决方案:在认证模块中增加代码,记录下每一用户Portal请求报文的端口号,以该端口号响应Portal的请求,解决UDP端口学习错误的问题。1/2/2 参数设置问题AC内关于认证计费的参数设置不当,增加AC内认证模块出现异常的机率,导致上线bas错误的发生。相关案例分析:案例一:记账间隔时间设置太短,导致出现认证接通率低的问题。故障描述:AC内认证计费参数有一项记账间隔时间,该值作用为每隔一个记账间隔时间AC对所有用户进行一次检测其是否在线,如果在线则针对每用户给Radius发送一条续费报文。表明该用户在线,对用户计费信息进行更新,确保计费的准确性。如果记账间隔时间设置太短,将导致AC频繁对在线用户进行检测并向Radius发送续费报文。当用户量大时,AC内认证模块将出现繁忙。无法及时响应Portal服务器发出的请求报文,产生上线bas错误,导致用户登录失败。 抓包截图记账间隔时间设置太短,导致AC和Radius之间进行大量的续费报文交互,从上面的截图可以看出,截图中的26个数据报文中仅有一个是AC和Portal服务器交互的报文,其他的25个数据包都是AC和Radius之间的续费报文。占比达到了96%。大量的续费报文导致了AC认证模块繁忙,消耗大量AC资源,无法AC及时响应Portal发出的认证请求报文。从问题发生的AC和时间来看。该问题发生在业务量较大的AC,且发生的时间点一般发生在上网的高峰期。在5月份发现部分厂家AC内记账间隔时间采用默认值,且默认值设置太短,设置成了30秒,导致AC认证模块出现繁忙,无法及时响应Portal服务器发出的请求报文,产生了大量的上线bas错误,出现认证接通率低的问题。解决方案:将记账间隔时间设置为900秒或更长(注:该参数raduis尚未使用,部分可以设置为0的厂家可以关闭该参数),防止认证模块出现繁忙导致发生大量上线bas错误。1/2/3 设备性能问题AC内开启了某些功能(SNMP/NAT)后,导致AC内资源消耗过大或者功能实现效率不高。从而导致出现上线bas错误。相关案例分析:案例一:AC开启SNMP服务后,出现认证接通率低的问题。故障描述:某厂家AC设备在开启了SNMP服务后,SNMP进程对AC的CPU资源消耗较大;在业务量大的时候,将会因 CPU利用率高而出现认证模块异常,出现上线bas错误。解决方案:通过优化AC内SNMP进程代码及资源调度机制,降低SNMP进程对资源的消耗。避免因SNMP进程对资源的消耗,导致AC认证模块出现异常,导致出现上线bas错误。案例二:AC开启NAT地址转换功能后,出现接通率低的问题。故障描述:长沙市目前WLAN用户IP地址分配采取私网IP地址+NAT的实施方案,AC为用户分配私网IP地址,同时在AC上启用NAT功能进行地址转换。AC实施地址转换需要通过软件功能实现,在地址转换时需要通过CPU计算处理。存在地址转换产生时延和效率不高的问题。地址转换产生的时延较大,从交互过程中AC收到用户登录请求开始计算,收到Ack_challenge、Ack_auth消息时间超过15秒超时将记录为上线bas错误。解决方案:WLAN用户使用公网地址。通过NAT转换专业设备进行地址转换,解决地址转换存在时延和效率不高问题而产生上线bas错误。1/2/4 网络丢包时延问题网络因设备兼容性问题或网络不稳定,而出现丢包和时延大的问题。AC和Portal之间的交互采用不可靠的UDP报文,UDP报文在传输过程中如果出现报文丢失,UDP协议层次将不会对其进行重传,因此在AC内设计了重传机制,如果AC发送报文后5秒钟未能收到下一步交互报文,则会对发出的数据进行重传。虽然设计了重传机制,但是可能因为重传而导致超时。 可能导致AC和 Portal之间交互的报文丢失,或者因时延大问题导致导致整个交互过程超时15秒,发生上线bas错误。相关案例分析:案例一:网络设备端口匹配问题导致出现网络丢包现象,导致出现认证接通率低的问题。故障描述:AC出现了大量的上线bas错误。从AC对Portal进行ping测试发现网络丢包率很高,达到了20%。忙时21/300/00,丢包率为24%,AP出现闪断掉线。通过分析发现,AC的端口状态为自适应状态,而AC的对端设备端口设置为速率强制1000M。把端口属性改为自适应后:忙时21/300/00/丢包率为3%-6%,AP闪断掉线的数量减少。因各厂家设备之间兼容匹配问题,导致端口无法相互协商自适应。导致出现网络丢包。丢包导致AC和Portal之间交互报文丢失、重传。因交互超时而发生大量的上线bas错误。解决方案:将AC对端设备同样设置为自适应状态,解决端口协商问题引发丢包导致的上线bas错误。1/3 错误话单问题错单产生原因分析:产生错误话单原因均为计费报文中未携带NAS-ID号或携带的NAS-ID错误,导致在BOSS系统内因NAS-ID值不合法而无法生成账单。AC内NAS-ID值的对应关系主要有3中,基于AP、基于业务VLAN和基于用户IP地址,目前主要采用基于VLAN对应NAS-ID值。Radius计费报文内容:Radius计费报文中包含用户帐号(user-name)、NAS-ID、上网时长(acct-session-time)、计费报文类型(acct-status-type)等内容。以下3类原因将产生错误话单:(1)为当用户下线时,AC给Radius发送计费结束报文时,无法依据对应关系匹配到NAS-ID,如果无法匹配到NAS-ID,则会自动填入00-00-00-00-00-00到计费报文中。(2)NAS-ID配置错误或者格式不正确,导致计费报文中携带的NAS-ID值错误。(3)AC设备问题导致无法依据匹配关系携带正确的NAS-ID信息。1/4 发生错误话单的原因及案例分析1/4/1 NAS-ID匹配错误AC内没有正确配置NAS-ID的对应信息,或者因对设备操作导致NAS-ID的配置信息丢失。当有用户发起下线请求时,将无法携带正确的NAS-ID信息,产生NAS-ID为0类型的错误话单。相关案例分析:案例一:AC内业务VLAN配置错误导致出现错误话单。故障描述:AC下出现F150类型的错误话单,错误话单原因为计费报文中NAS-ID值为00-00-00-00-00-00,经过对AC的数据检查发现站点明城公馆的6信道模板配置了一个业务VLAN 3792,该VLAN在AC的VLAN列表中存在,但是该业务VLAN所对应的热点为工程期间热点,没有规划配置NAS-ID。由于APAC之间的业务数据***有CAPWAP隧道,因此即便VLAN配置错误,用户上网数据仍然可以通过交换机等传输设备,用户可以正常上网。由于业务VLAN配置错误,导致出现无法匹配NAS-ID的问题。因此该模板下的用户计费报文无法携带NAS-ID,出现错误话单。VLAN配置错误解决方案:将瘦AP配置模板中业务VLAN修改正确即可解决问题。案例二:主备备份操作失误导致出现错误话单。故障描述:在对主备AC进行备份时需要定义一个心跳端口。业务VLAN在AC内基于端口进行配置,对AC端口重新定义后,原有VLAN和NAS-ID将会丢失。所有VLAN和NAS-ID需要重新配置。如果在执行此项操作时,未将AC LAN口线缆拔掉。如果此时有用户发起下线请求,计费报文将无法携带NAS-ID号,而产生错误话单。如下图为用户15214394754的用户未携带NAS-ID的计费报文信息。解决措施:在进行设备主备配置操作时,选择在凌晨业务量小的时段进行,并严格按照流程执行,先将AC LAN口线缆拔掉,中断用户上网业务,再进行配置操作。待全部配置完成后,再连接线缆恢复业务。防止操作器件因AC内无NAS-ID配置信息而产生NAS-ID为0的错误话单。1/4/2 NAS-ID格式错误AC内NAS-ID值配置错误或者格式不正确/比如NAS-ID配置为1200/0731/731/00/46(NAS-ID值多加了点)或者CMCC(不合法NAS-ID),导致计费报文中携带的NAS-ID值不合法而无法生成话单。相关案例分析/案例一:NAS-ID配置错误导致出现错误话单。故障描述:AC(211/142/223/30)在2月份产生一条NAS-ID值为CMCC的错误话单,经过对该台AC的数据检查发现,有一个热点的业务VLAN对应的NAS-ID值配置成了CMCC。因此该热点下用户上网的产生的计费报文NAS-ID值将为CMCC。该值属于不合法的NAS-ID,正确的NAS-ID值应该为1200073173100460。解决方案:将NAS-ID值修改为正确的NAS-ID值即可解决问题。案例二:NAS-ID配置中包含了”/”导致出现错误话单。故障描述:AC产生一条NAS-ID值为1200/0731/731/00,经过对该台AC的数据检查发现,有一个热点的业务VLAN对应的NAS-ID值配置成了1200/0731/731/00/46。由于”/”将占用一个字符,因此该热点下用户上网的产生的计费报文NAS-ID值将为1200/0731/731/00。该值属于不合法的NAS-ID,正确的NAS-ID值应该为1200073173100460。解决方案:在配置NAS-ID值是不要把”/”字符配置进去。1/4/3 设备问题AC设备问题导致无法依据匹配关系携带正确的NAS-ID信息。相关案例分析:案例一:AC内NAS-ID存储空间不够导致出现错误话单。故障描述:AC下发现产生NAS-ID值为120007317310和120107317310的错误话单。1200073173100460相对应的热点为柯达名居。通过抓包发现是在AC上报这个热点的NAS-ID的时候上报的NAS-ID位数不全导致。而导致此现象出现的原因是由于AC上NAS-ID的默认储存空间不够导致。解决方案:将NAS-ID值的储存空间改大,解决NAS-ID存储空间不够的问题,即可将问题解决。案例二:AC内CPU利用率持续较高导致出现错误话单。故障描述:升级AC时,须将新版本传到AC业务平台,业务平台加载新系统时CPU利用率持续较高在CPU利用率高的情况下AC的radius认证模块将无***常工作,在此过程中用户发起的计费报文将随机产生一些错误信息进行radius报文封装,认证报文携带的错误信息将产生错误话单。解决方案:新系统装载成功后,故障恢复。在对AC进行数据割接时,必须在AC上没有认证用户的前提下进行,并且在割接期间先把用户的认证开关关闭,当割接完毕后,立即把认证开关打开。这样保证了用户正常上网,也不会产生错误话单。1/5 错误话单问题小结结合以上分析和我省设备实际情况,导致话单错误的原因主要有如下原因:1、 工程开局阶段VLAN和热点配置错误导致。主要表现在京信公司和大唐公司,出现问题也不容易被发现,这主要和以上两厂家的AC机制有关(京信和大唐公司APAC之间的业务数据***有CAPWAP隧道,因此即便VLAN配置错误,用户上网数据仍然可以通过交换机等传输设备,用户可以正常上网)。防范措施:(1)加强工程开局数据管理,在认证入网时除了对三元组数据进行重点审核外,对工程开局数据也安排专人进行审核核对。(2)工程开局时所有热点均预配置一个默认NAS-ID,即使在误开启认证情况下也不会出现话单错误。(3)鉴于京信和大唐公司AC机制的特殊性,后期在入网与计费验证测试中将针对1、6、11三个模板开展测试,避免因不能模板VLAN对应错误导致错单问题。2、设备自身原因导致,主要表现如下:(1)虹信测试阶段出现的话单错误(AC上的NASID的默认储存空间不够)。(2)弘浩明传AC的FOA测试阶段出现的话单错误(业务平台加载新系统时CPU利用率持续较高,在CPU利用率高的情况下AC的radius认证模块将无***常工作导致话单错误)。(3)京信公司主备倒换测试阶段出现的话单错误(如果在执行主备倒换操作时,未将AC LAN口线缆拔掉。若此时有用户下线,计费报文将无法携带NAS-ID号,而产生错单)。防范措施:此类由于设备自身原因导致的话单错误一般比较难以发现,只有在出现问题抓包分析排查问题并尽快汇报。同时譬如日常升级、主备前尽量选择在用户闲时,升级或主备操作前制定详细的方案,避免因设备自身原因或操作原因导致话单出错。 3、NAS-ID设置错误:主要表现在AC因权限管理不严,导致部分维护人员进入AC将NAS-ID误设置为CMCC导致话单错误。预防措施:(1)加强AC密码管理和控制,极少人掌握较高权限,其他仅开放查看权限。(2)工程开局时所有热点均按照NAS-ID标准格式预配置一个默认NAS-ID,即使在误开启认证情况下也不会出现话单错误。1/6 其他AC设备故障主要故障原因:(1)AC内业务板卡故障;(2)AC进程异常;(3)AC参数配置问题都可能导致AC工作异常;以上AC故障可能导致AP离线退服、用户无法获取IP地址或用户无法认证上网。1/6/1 常见板卡故障及案例分析常见板卡故障主要有业务板芯片损坏,接口模块损坏等;发生板卡故障在AC主控板上均会有相应的告警指示。依据告警指示对故障板件进行更换处理。相关案例分析:案例一:AC业务板芯片损坏导致设备无***常启动工作。故障描述:AC下的所有热点网络都不可用,网管平台上出现SNMP不通告警。所有热点网络均不可用且AC出现告警信息,此种情况很可能为AC出现故障导致。前往机房对AC进行检查发现,AC出现Out of Service LED指示灯告警,告警含义为设备不可用。同时使用串口不能登录AC。AC控制板工作正常,未出现告警。此故障可能为业务板芯片损坏导致系统无法启动。解决方案:将设备断电后更换AC业务板卡,对AC进行数据配置后工作正常。案例二:AC接口模块损坏导致网络不可用。故障描述:AC下带的所有AP均离线退服,查看AC进程信息发现wltps、DHCP进程工作正常。查看AC端口工作状态发现AC LAN口处于shutdown状态,使用no shutdown命令无法将端口打开。前往机房查看发现LAN端口指示灯出现红灯告警指示。为AC接口模块损坏导致AP全部离线。解决方案: 设备断电后,将损坏的接口模块拔出,***新的接口模块。上电后,AC即可正常工作。1/6/2 进程异常故障及案例分析AC内常见进程异常主要有包含如下进程DHCP进程、wltps进程、igw8021x进程工作异常。其中DHCP工作异常将影响AP和用户获取IP地址;wltps进程异常将影响AP正常上线;igw8021x模块异常将影响用户认证上网。相关案例分析:案例一:DHCP进程异常导致AP无法关联AC工作。故障描述:AC下的AP全部无法下发配置数据,检查发现AC的MAC地址表中均能发现AP的MAC地址,但是无法下发配置数据。检查AC的已分配IP地址列表发现,AP都没有从AC获取到IP地址,因此无法同AC进行管理报文的交互。查看进程发现AC的DHCP进程没有正常启动,导致无法给AP分配IP地址。解决方案:手动启动DHCP进程,AP就能正常获取地址,对AP下发配置数据。案例二:wltps进行异常导致AP全部离线。故障描述:网管平台显示AC下的AP全部离线,查看AC内AP在线列表,瘦AP全部显示为离线状态。检查汇聚交换机配置并动态查看AP的MAC地址后,汇聚交换机可以学习到瘦AP的MAC地址,确认热点侧-传输资源-汇聚交换机配置没有问题。对AC的数据配置进行检查,确认数据配置后,查看AC的工作进程,发现进程中没有wltps进程没有起来。导致AC无法和AP进行通信,AP无法在AC上注册上线。解决方案:手动启动wltps进程,待进程重启完成后,AP就能正常上线工作。案例三:igw8021x进程挂死导致用户认证失败。故障描述:接到AC下热点的许多用户投诉,反映无法认证上网,提示认证失败。对该台AC进行Portal、Radius认证局数据检查发现,数据配置没问题。在AC内ping Portal服务器发现链路可达。排除数据和网络原因后,对AC进程进行检查,发现在进程列表中有igw8021x进程,但是进程号异常,可能为进程挂死导致无***常和Portal服务器交互。导致用户认证失败。解决方案: 手动重启该进程,待进程重启完成后,用户就能正常认证上网。案例四:AC所带热点没有CMCC或CMCC-EDU信号解决方案:1、登录AC查找热点AP是否在线,并查看其它热点是否在线。如果AP在线,则检查热点AP配置模板数据;如果AP全部离线,检查AC工作进程是否正常,如进程异常,则重启异常进程。2、如果AC下部分热点离线,检查热点传输链路,可从POE交换机ping AC的IP地址确认传输,检查POE交换机数据配置和设备供电情况。针对问题,相应解决。案例五:AC下瘦AP全部离线解决方案:1、登录AC查看AP在线列表,发现AP全部离线,检查汇聚交换机配置并动态查看AP的MAC地址后,汇聚交换机可以学习到瘦AP的MAC地址,确认热点侧-传输资源-汇聚交换机配置没有问题。2、检查AC的数据配置,确认数据配置后,查看AC的工作进程,发现进程中没有wltps进程以及igw8021x进程。手工启动wltps,可以起来,但是igw8021x进程手工也启动不起来。尝试修改此属性,执行完之后,没有报错,但是mount,依然是RO属性。3、查看了系统分区信息,/dev/sdb 567三个分区变成了ro(read-only)的属性。正常情况下应该是rw的。变成ro导致日志写不进,配置文件保存不了等等一系列问题。尝试格式化此分区后,mount发现此分区变成rw了。再查看系统进程发现,wltps进程起来了,AP也在线了。但是认证模块还是没有起来。一分钟之后,再查看mount,发现此分区又变成ro了。umount /logfiles分区,发现认证模块进程起来,有用户开始认证,业务恢复正常。1/6/3 参数配置故障及案例分析案例一:用户投诉AC下所带热点用户获取不到地址解决方案:1、登录AC查看DHCP服务器配置,确认数据配置正确,有用户正常使用。2、用户高峰时段查看DHCP已分配IP列表,如果已分配IP列表值大于业务地址池的最大值。业务地址池扩容后,此问题得到解决。3、检查热点业务VLAN是否对应到相应的VIF和DHCP地址池,如果配置错误则修正配置。案例二:用户反映能弹出Portal登录页面,但是无***常登录上线。解决方案:1、登录AC查看相关AC中该热点的瘦AP配置模板配置。2、瘦AP配置模板中profiles的Portal服务器、Radius服务器设置中开启了认证,配置了Portal服务器,但是未配置Radius服务器。导致AC无法完成整个认证交互流程。3、在Radius服务器中正确添加Radius服务器,即能解决问题。案例三:在对AC端口进行重新定义后,出现用户无法上网,AC内无VLAN信息。解决方案:1、登录AC检查VLAN配置,发现VLAN配置数据不存在。2、VLAN在AC内基于端口进行配置,对AC端口重新定义后,所有VLAN需要重新配置。VLAN丢失后将导致用户无***常上网。3、将AC端口定义好之后,将VLAN、NAS-ID重新配置好即解决问题。4、前往热点进行WLAN业务测试。2/ AP故障问题AP设备退服主要表现为AP设备离线导致网络不可用,导致AP离线退服的原因主要有以下几类:(1) AP设备故障(2) POE交换机问题(3) 断电故障(4) 传输故障(5) 数据配置问题AP离线退服故障排障流程:AP故障排查流程图(1)首先登录AC或OMC查询AP离线情况,确定为单个、非连续性AP离线还是大面积、非连续性AP离线。(2)对于单个、非连续性AP离线故障,需要前往站点依次对以下几个问题进行排查:网线连通性故障,POE供电异常,AP设备损坏。依据排查结果给出相应的解决方案。(3)对于大面积、连续性AP离线故障,一般为传输故障、断电问题,数据配置问题导致。采取由下至上的方式进行排查。先登录POE交换机检查POE交换机的工作情况及数据配置,排查交换机问题。再登录OLT设备,查询ONU工作状态及数据配置;依据ONU的工作状态:online/offline/poweroff,确定是否发生传输光路中断或断电。其次检查BRAS及AC的数据配置,排查数据问题。可以通过查看设备MAC地址表项是否包含AP的MAC地址的方法来确定中间链路的连通性。2/1 AP设备问题因AP设备问题导致AP离线退服的原因主要有以下几种:AP吊死、AP射频模块损坏、AP软件版本问题。(1)AP吊死:AP设备仍然处于在线工作状态,AP和AC之间能进行正常的信息交互,但是无射频信号输出。此类故障一般因为AP电路或者射频模块存在***,在AP业务量较大时容易发生吊死故障。一般通过重启AP设备的方式解决。(2)AP射频模块损坏:AP设备仍然处于在线工作状态,但是输出的射频信号很弱或者不稳定,一般为AP设备发射机故障导致。(3)AP软件版本问题:AP设备软件版本文件缺失,或者AP工作在胖AP模式,导致AP不能在AC上注册上线。AC设备在进行升级后,AC将对AP进行自动升级,升级过程中因网络不稳定等原因,导致AP升级失败造成版本文件缺失,AP不能正常上线工作;或者AP工作在胖AP模式下,上电启动后,不会发出DHCP请求,因此无法在AC注册上线。一般通过对AP进行版本升级或者将AP工作模式转换为瘦AP模式即可解决问题。相关案例分析:案例一:AP设备发生吊死故障导致站点网络不可用。故障描述:站点AP出现退服现象,现场观察AP指示灯状态发现,AP电源指示灯和连接指示灯正常,射频指示灯不亮。现场测试发现AP无射频信号发出。在AC内观察AP的状态为正常且能正常ping通,由此排除网线连通性故障和供电故障,判定AP发生吊死故障。解决方案:通过重启AP设备解决。案例二:网线接头制作不规范导致AP设备离线。故障描述:站点部分AP异常离线,现场检查发现AP除电源(POWER)指示灯以外其余指示灯(LAN、RF)都不亮。使用测线仪对网线进行测试发现,因网线制作不规范导致网线存在不同的问题。解决方案:按照568B标准重新制作水晶即可解决故障。案例三:站点AP工作在胖AP工作模式,导致AP不能上线。故障描述:华都宾馆有一个AP不能在AP上注册上线,现场检查AP指示灯发现,AP电源指示灯和连接指示灯都正常。排除网线连通性故障及供电故障。AP射频指示灯闪烁,AP在未关联AC的的情况下有射频信号输出,说明该AP工作在胖AP模式。解决方案:登录到AP,将AP工作模式修改为瘦AP,AP即可在AC上注册上线。案例四:AP版本升级失败导致不能上线。故障描述:AC(硬件型号为FH-2400)软件版本升级至版本3/3/8后出现部分AP不能上线的情况。通过现场观察发现AP电源指示灯常亮,其他指示灯均不亮。使用测线仪测试网线连通性良好。电源指示灯常亮说明供电正常。使用电脑连接到AP发现无法登录到AP,说明AP版本文件出现丢失损坏。解决方案: 对AP进行版本升级,解决AP因版本文件缺失无法上线的问题。对AC的升级尽量选择在凌晨业务量少的时段。防止因网络不稳定而导致AP升级失败。案例五:AP信号输出不稳定导致网络不可用。故障描述:AP出现射频信号输出不稳定的情况,在AP连接自带鞭状天线的情况下进行测试发现,AP下信号在-30dbm和-85dbm之间波动。AP有射频信号输出,说明网线连通性和供电都没问题。为AP射频模块工作不稳定导致。解决方案:更换AP,将AP损坏的射频模块送厂返修。案例六:AP信号输出弱导致网络不可用。故障描述:站点出现无线信号弱的问题,用户无法连接无线网络使用。在AP连接自带鞭状天线的情况下进行测试,AP的输出信号在-90dbm左右,AP输出信号弱。AP有射频信号输出,说明网线连通性和供电都没问题。为AP射频模块中发射机故障导致输出信号弱。解决方案:更换AP,将AP损坏的射频模块送厂返修。2/2 POE交换机问题站点POE交换机直接连接到AP,交换机发生故障将直接导致AP退服。POE交换机主要存在POE供电不足、配置文件丢失、端口工作不稳定的问题。(1)POE供电不足:交换机存在整体供电不足或但端口供电不足、供电电压不稳定的问题。当交换机下挂AP数量太多或者网线过长时,容易出现因AP供电不足而导致AP退服的故障。一般建议24口POE交换机下挂AP数量不超过15个。(2)配置文件丢失:POE交换机系统数据储存在内置闪存中,交换机启动后3秒内完成闪存内相关数据的加载工作,短时间内多次断电、通电导致交换机无***常加载数据,导致系统文件或配置数据丢失。AP无***常上线工作。(3)端口工作不稳定:交换机因雷击或漏电导致交换机损坏,出现交换机端口烧坏或工作不稳定的问题。登录到交换机查看端口状态,端口启用后无法工作或者不停的打开关闭。一般可以通过对交换机设备接地的方式来降低被烧坏的几率。相关案例分析:案例一:单端口供电不足,导致AP无法上电工作。故障描述:站点采取与2G合路建设的方式进行WLAN覆盖建设,站点开通后AP无法上线。检查AP指示灯状态,所有AP指示灯全部不亮。使用测线仪测试网线的连通性发现,网线连通性很好。将AP天线口断开天馈线后,AP电源指示灯和连接指示灯正常。在断开天馈系统后,AP射频模块功耗变小,AP整体功耗降低,交换机端口POE功耗能够满足要求,因此AP能够正常工作。根本原因为交换机单端口供电不足导致AP不能上电工作。解决方案:加装POE集中供电器对AP进行供电,解决交换机端口供电不足的问题。案例二:交换机整体供电不足,在交换机下连AP数较多时部分AP不能正常工作。故障描述:站点部分AP出现有时上线,有时离线的问题。在AP离线的时间段,对AP检查发现,AP指示灯均不亮。对网线连通性检查未发现问题,网线接头制作工艺良好,不存在接触***的问题。对交换机侧的网线拔插发现,AP上线一段时间后离线。在检查交换机时发现,24端口POE交换机连接的AP数达到了20个,AP连接数量太多。当AP下业务量大时,AP的功耗将增大,导致交换机因整体供电不足导致部分AP离线。解决方案:加装POE集中供电器对AP进行供电,解决交换机整体供电不足的问题。案例三:交换机系统文件丢失,导致无法启动进入系统。故障描述:交换机上电启动后,AP无法上电工作。对网线进行测试未发现问题。通过串口登录交换机发现交换机进程启动到某一步后,无法继续启动。交换机可能在短时间内多次断电、通电导致交换机在短时间内无***常加载数据,导致系统文件丢失而无法启动进入系统的问题。解决方案:对交换机重新刷入版本,交换机即可正常启动工作。案例四:交换机配置数据丢失,导致AP不能正常上线。故障描述:站点AP全部离线,无法通过远程登录的方式登录到交换机,登录到ONU发现状态正常,站点未发生断电故障。前往站点检查发现交换机正常上电启动,AP指示灯正常。使用串口登录到交换机发现交换机配置数据丢失,恢复了出厂默认配置。在POE交换机上配置的管理VLAN信息丢失,导致在AP和AC之间未能建立二层通道,因此AP无法上线。可能原因为交换机短时间内断电、通电导致配置数据未能加载到闪存中,出现丢失。解决方案:重新对交换机配置数据,AP即可正常注册上线。案例五:交换机端口工作不稳定,导致AP无***常工作。故障描述:站点部分AP离线,使用串口登录到交换机发现,AP对应POE交换机端口不停的打开、关闭。对网线接头工艺进行检查发现,水晶头按照标准568B标准制作,工艺良好不存在接触***的问题。将AP连接到其他端口,端口工作状态稳定,能够从POE交换机的MAC地址表中查询到该AP的MAC地址,AP能够稳定上线。用手触摸交换机发现交换机外壳带电,可能原因为交换机漏电,导致交换机端口因短路被烧坏。解决方案:对损坏的交换机设备进行替换,对更换后的交换机重新配置数据。2/3 断电问题站点因ONU、交换机断电往往导致整个站点AP离线退服。断电原因主要有2类:人为因素断电和工程问题断电。(1)人为因素断电:业主因担心电磁辐射或者用电协调存在问题,导致业主将设备断电。(2)工程问题断电:WLAN设备取电未采取集中供电的方式,在民用市电取电,往往导致业主关电后设备被断电;或因为工程接电不符合要求而出现电源短路跳闸等情况。相关案例分析案例一:业主因担心电磁辐射将WLAN设备断电。故障描述:站点出现所有AP离线的故障,远程无法登录到交换机,登录OLT查询站点ONU状态为poweroff。表明站点出现的断电故障。前往站点检查发现接电线被人拔出。经过了解得知因业主看到移动通信的天线担心会有电磁辐射因此将设备断电。解决方案:对业主分发移动通信电磁辐射的知识普及资料,进行宣传讲解,解除业主对于电磁辐射的顾虑。案例二:网络设备从市电取电,导致用户关电后网络不可用。故障描述:某高校宿舍区AP在晚上12点后都会离线。站点的ONU、交换机都出现不可达的情况。前往热点了解的情况发现,网络设备从楼层宿舍用电的主干线处取电。晚上12点学校宿舍楼集中关电,导致网络设备停电。解决方案:进行工程整改,对设备采取集中供电的方式,对每栋楼进行集中单独供电。2/4 传输问题目前WLAN组网绝大部分采取PON组网方式,PON组网部分为OLT光交箱分光器ONU。在整个无源光网络中,光交箱、分光器都是无源设备,但容易出现因光路中断、光衰减过大或设备故障而导致整个站点AP全部离线退服的故障。相关案例分析:案例一:站点ONU尾纤过度弯曲导致光衰减太大,致使站点AP全部离线。故障描述:网管平台上显示站点AP全部离线,无法远程登录到交换机查看交换机工作状态,登录到OLT查询站点ONU工作状态为offline。因此为光传输信号衰减过大或光路中断导致。前晚站点查看发现ONU尾纤为套保护管,弯曲幅度太大引起光衰减太大,导致ONU离线。尾纤未套保护管,弯曲幅度太大解决方案:替换尾纤,并使用缠绕管对尾纤进行保护,防止尾纤因弯曲幅度过大或弯折导致衰减过大。案例二:ONU接收光强度不够,导致AP信号时有时无。故障描述:整个站点出现WLAN信号时有时无的现象,站点检查POEONU之间网线按照标准规范制作,工艺良好,不存在接触***的问题。站点发现ONU的LOS指示灯时而闪烁红灯告警。使用光功率计测试发现,ONU输入光功率在-40dbm左右,接收光强度太弱,位于ONU光接收强度的灵敏度值附近。导致ONU时而工作不正常,出现帧丢失告警。当光接收强度高于接收灵敏度时,ONU能够正常工作,AP正常上线。当光接收强度低于接收灵敏度时,出现帧丢失,AP不能上线工作。因此出现信号时有时无的现象。解决方案:使用测试仪测试光衰减过大的部分,重新跳纤,解决光衰减过大的问题。2/5 数据配置问题AP在AC上注册上线,终端能够正常连接无线网络认证上网需要配置的数据有:中间设备配置VLAN透传、QinQ和在AC上配置AP的无线参数及认证局数据。数据配置错误将可能导致AP无法上线,用户无法关联及AC工作异常等。WLAN网路设备需要配置的数据:(1)AP/零配置。(2)POE交换机:开启POE供电功能,同时配置站点管理、业务VLAN。(3)ONU:配置ONU端口为transparent模式,透传VLAN数据。(4)OLT:需要在OLT上对上线的ONU进行认证,同时启用QinQ。(5)汇聚交换机:配置VLAN透传。(6)BRAS:配置QinQ数据。(7) AC:配置DHCP服务,同时配置AP工作所需的参数,同时需要配置Portal、Radius、NAS-ID等参数。数据配置错误主要为以下2个方面:(1)中间设备数据配置错误:我省WLAN采取二层组网方式,为每一热点规划一个管理VLAN和业务VLAN,其中管理VLAN承载AC与AP之间的控制协议等,业务VLAN承载WLAN用户流量。同时在OLT和AC对端设备上启用QinQ功能。中间链路VLAN透传或QinQ配置错误将导致AP不能上线或者用户不能上网。(2)AC设备数据配置错误:在AC上需要配置DHCP服务,为AP和用户分配IP地址,同时还需配置AP工作所需的参数,需要配置Portal、Radius、NAS-ID等参数。AC参数配置错误将可能导致AP不能正常工作,用户无法上网等。相关案例分析:案例一:POE交换机业务VLAN配置错误导致用户无法获取IP地址。故障描述:站点AP正常在线,但是用户无法关联无线网络。通过现场测试发现,站点无线信号较好且周围无电磁干扰。用户无法获取到IP地址,无线网卡地址为169/254/X/X,该地址为当客户端未能获取到IP地址,windows系统将为用户自动分配169/254/X/X网段的地址。检查AC进程发现DHCP进程正常,AC地址池未出现溢出情况。检查站点POE交换机发现,交换机没有透传业务VLAN信息,导致用户DHCP请求无法发送至AC,导致连接受***。解决方案:修改POE交换机数据,对业务VLAN信息进行透传。案例二:交换机未开启端口供电,导致AP无法上电启动。故障描述:站点交换机上电后,AP无法启动工作。检查网线连通性正常,交换机工作正常。使用串口进入交换机发现端口未开启供电功能。中兴交换机在缺省配置条件下端口POE供电功能是关闭的,导致AP不能上电工作。解决方案: 使用set poe-port 1-20 enable(中兴S2826系列交换机)命令开启端口POE供电功能,AP即可正常上电工作。案例三:ONU端口工作模式错误,导致整个热点AP不能上线。故障描述:整个站点AP都不能上线,检查交换机配置管理VLAN、业务VLAN均配置正确。连接ONU检查发现,交换机端口模式为tag(标签)模式,导致管理VLAN信息不能通过ONU。ONU端口应配置成transparent(透传)模式,对VLAN信息不做任何修改直接透传。解决方案:将ONU端口

郑重声明:
1. 《WLAN网络维护优化指导手册v7》内容来源于互联网,版权归原著者或相关公司所有。
2. 若《86561825文库网》收录的文本内容侵犯了您的权益或隐私,请立即通知我们删除。