时间:2023-01-10 19:12:54
序论:在您撰写网络故障时,参考他人的优秀作品可以开阔视野,小编为您整理的7篇范文,希望这些建议能够激发您的创作热情,引导您走向新的创作高度。
【网络故障;常见故障;分类诊断;物理类故障;逻辑类故障
在当今这个计算机网络技术日新月异,飞速发展的时代里,计算机网络遍及世界各个角落,应用在各行各业,普及到千家万户,它给人们可谓带来了诸多便利,但同时也带来了很多的烦恼,笔者对常见的网络故障进行了分类和排查方法的介绍,相信对你有所帮助。根据常见的网络故障归类为摘要:物理类故障和逻辑类故障两大类。
一、物理类故障
物理故障,一般是指线路或设备出现物理类新问题或说成硬件类新问题。
(一)线路故障
在日常网络维护中,线路故障的发生率是相当高的,约占发生故障的70%。线路故障通常包括线路损坏及线路受到严重电磁干扰。
排查方法摘要:假如是短距离的范围内,判定网线好坏简单的方法是将该网络线一端插入一台确定能够正常连入局域网的主机的RJ45插座内,另一端插入确定正常的HUB端口,然后从主机的一端Ping线路另一端的主机或路由器,根据通断来判定即可。假如线路稍长,或者网线不方便调动,就用网线测试器测量网线的好坏。假如线路很长,比如由邮电部门等供给商提供的,就需通知线路提供商检查线路,看是否线路中间被切断。
对于是否存在严重电磁干扰的排查,我们可以用屏蔽较强的屏蔽线在该段网路上进行通信测试,假如通信正常,则表明存在电磁干扰,注重远离如高压电线等电磁场较强的物件。假如同样不正常,则应排除线路故障而考虑其他原因。
(二)端口故障
端口故障通常包括插头松动和端口本身的物理故障。
排查方法摘要:此类故障通常会影响到和其直接相连的其他设备的信号灯。因为信号灯比较直观,所以可以通过信号灯的状态大致判定出故障的发生范围和可能原因。也可以尝试使用其它端口看能否连接正常。
(三)集线器或路由器故障
集线器或路由器故障在此是指物理损坏,无法工作,导致网络不通。
排查方法摘要:通常最简易的方法是替换排除法,用通信正常的网线和主机来连接集线器(或路由器),如能正常通信,集线器或路由器正常;否则再转换集线器端口排查是端口故障还是集线器(或路由器)的故障;很多时候,集线器(或路由器)的指示灯也能提示其是否有故障,正常情况下对应端口的灯应为绿灯。如若始终不能正常通信,则可认定是集线器或路由器故障。
(四)主机物理故障
网卡故障,笔者把其也归为主机物理故障,因为网卡多装在主机内,靠主机完成配置和通信,即可以看作网络终端。此类故障通常包括网卡松动,网卡物理故障,主机的网卡插槽故障和主机本身故障。
排查方法摘要:主机本身故障在这里就不在赘述了,在这里只介绍主机和网卡无法匹配工作的情况。对于网卡松动、主机的网卡插槽故障最好的解决办法是更换网卡插槽。对于网卡物理故障的情况,如若上述更换插槽始终不能解决新问题的话,就拿到其他正常工作的主机上测试网卡,如若仍无法工作,可以认定是网卡物理损坏,更换网卡即可。
二、逻辑类故障
逻辑故障中的最常见情况是配置错误,也就是指因为网络设备的配置错误而导致的网络异常或故障。
(一)路由器逻辑故障
路由器逻辑故障通常包括路由器端口参数设定有误,路由器路由配置错误、路由器CPU利用率过高和路由器内存余量太小等。
排查方法摘要:路由器端口参数设定有误,会导致找不到远端地址。用Ping命令或用Traceroute命令(路由跟踪程序摘要:在UNIX系统中,我们称之为Traceroute;MSWindows中为Tracert),查看在远端地址哪个节点出现新问题,对该节点参数进行检查和修复。
路由器路由配置错误,会使路由循环或找不到远端地址。比如,两个路由器直接连接,这时应该让一台路由器的出口连接到另一路由器的入口,而这台路由器的入口连接另一路由器的出口才行,这时制作的网线就应该满足这一特性,否则也会导致网络错误。该故障可以用Traceroute工具,可以发现在Traceroute的结果中某一段之后,两个IP地址循环出现。这时,一般就是线路远端把端口路由又指向了线路的近端,导致IP包在该线路上往返反复传递。解决路由循环的方法就是重新配置路由器端口的静态路由或动态路由,把路由设置为正确配置,就能恢复线路了。
路由器CPU利用率过高和路由器内存余量太小,导致网络服务的质量变差。比如路由器内存余量越小丢包率就会越高等。检测这种故障,利用MIB变量浏览器较直观,它收集路由器的路由表、端口流量数据、计费数据、路由器CPU的温度、负载以及路由器的内存余量等数据,通常情况下网络管理系统有专门的管理进程,不断地检测路由器的关键数据,并及时给出报警。解决这种故障,只有对路由器进行升级、扩大内存等,或者重新规划网络拓扑结构。
(二)一些重要进程或端口关闭
一些有关网络连接数据参数得重要进程或端口受系统或病毒影响而导致意外关闭。比如,路由器的SNMP进程意外关闭,这时网络管理系统将不能从路由器中采集到任何数据,因此网络管理系统失去了对该路由器的控制。或者线路中断,没有流量。
排查方法摘要:用Ping线路近端的端口看是否能Ping通,Ping不通时检查该端口是否处于down的状态,若是说明该端口已经给关闭了,因而导致故障。这时只需重新启动该端口,就可以恢复线路的连通。
(三)主机逻辑故障
主机逻辑故障所造成网络故障率是较高的,通常包括网卡的驱动程序安装不当、网卡设备有冲突、主机的网络地址参数设置不当、主机网络协议或服务安装不当和主机平安性故障等。
1.网卡的驱动程序安装不当。网卡的驱动程序安装不当,包括网卡驱动未安装或安装了错误的驱动出现不兼容,都会导致网卡无法正常工作。
排查方法摘要:在设备管理器窗口中,检查网卡选项,看是否驱动安装正常,若网卡型号前标示出现“!”或“X”,表明此时网卡无法正常工作。解决方法很简单,只要找到正确的驱动程序重新安装即可。
2.网卡设备有冲突。网卡设备和主机其它设备有冲突,会导致网卡无法工作。
排查方法摘要:磁盘大多附有测试和设置网卡参数的程序,分别查验网卡设置的接头类型、IRQ、I/O端口地址等参数。若有冲突,只要重新设置(有些必须调整跳线),或者更换网卡插槽,让主机认为是新设备重新分配系统资源参数,一般都能使网络恢复正常。
3.主机的网络地址参数设置不当。主机的网络地址参数设置不当是常见的主机逻辑故障。比如,主机配置的IP地址和其他主机冲突,或IP地址根本就不在于网范围内,这将导致该主机不能连通。
排查方法摘要:查看网络邻居属性中的连接属性窗口,查看TCP/IP选项参数是否符合要求,包括IP地址、子网掩码、网关和DNS参数,进行修复。
4.主机网络协议或服务安装不当。主机网络协议或服务安装不当也会出现网络无法连通。主机安装的协议必须和网络上的其它主机相一致,否则就会出现协议不匹配,无法正常通信,还有一些服务如“文件和打印机共享服务”,不安装会使自身无法共享资源给其他用户,“网络客户端服务”,不安装会使自身无法访问网络其他用户提供的共享资源。再比如E-mail服务器设置不当导致不能收发E-mail,或者域名服务器设置不当将导致不能解析域名等。
排查方法摘要:在网上邻居属性(Windows98系统)或在本地连接属性窗口查看所安装的协议是否和其他主机是相一致的,如TCP/IP协议,NetBEUI协议和IPX/SPX兼容协议等。其次查看主机所提供的服务的相应服务程序是否已安装,假如未安装或未选中,请注重安装和选中之。注重有时需要重新启动电脑,服务方可正常工作。
5.主机平安性故障。主机故障的另一种可能是主机平安故障。通常包括主机资源被盗、主机被黑客控制、主机系统不稳定等。
排查方法摘要:主机资源被盗,主机没有控制其上的finger,RPC,rlogin等服务。攻击者可以通过这些进程的正常服务或漏洞攻击该主机,甚至得到管理员权限,进而对磁盘所有内容有任意复制和修改的权限。还需注重的是,不要轻易的共享本机硬盘,因为这将导致恶意攻击者非法利用该主机的资源。
主机被黑客控制,会导致主机不受操纵者控制。通常是由于主机被安置了后门程序所致。发现此类故障一般比较困难,一般可以通过监视主机的流量、扫描主机端口和服务、安装防火墙和加补系统补丁来防止可能的漏洞。
主机系统不稳定,往往也是由于黑客的恶意攻击,或者主机感染病毒造成。通过杀毒软件进行查杀病毒,排除病毒的可能。或重新安装操作系统,并安装最新的操作系统的补丁程序和防火墙、防黑客软件和服务来防止可能的漏洞的产生所造成的恶性攻击。
三、结语
计算机网络技术发展迅速,网络故障也十分复杂,上述概括了常见的几类故障及其排查方法。针对具体的诊断技术,总体来说是遵循先软后硬的原则,但是具体情况要具体分析,这些经验就需要您长期的积累了。假如你是网络管理人员,在网络维护中的还需要注重以下几个方面摘要:
第一,建立完整的组网文档,以供维护时查询。如系统需求分析报告、网络设计总体思路和方案、网路拓扑结构的规划、网络设备和网线的选择、网络的布线、网络的IP分配,网络设备分布等等。
本文简述了作者在维护网络过程中,遇到的网络故障及处理方法,希望对大家的网络维护工作起到促进作用。
计算机网络的组成
计算机网络就是利用通讯线路和通信设备,用一定的连接方法,将分布在不同地点的具有独立功能的多台计算机系统相互联结起来,在网络软件的支持下进行数据通信,实现资源共享的功能。除了计算机外,用于连接网络的硬件设备有光缆、光收发器、双绞线、路由器、交换机、网络适配器(网卡)等。一般造成网络不通的大部分原因都是这些设备出了故障。下面我们将对它们出现的故障进行简要的分析。
光缆和光纤
光缆的故障主要是光缆折断,由于光缆内部有用于抗拉伸力量的钢丝,所以光缆自然折断的可能性不大,但由于道路施工等多种原因,光缆被铲车挖断或汽车挂断的事情还是时有发生。例如,去年四月,我台的外网光缆被施工的汽车挂断,几周后,内网光缆又被其他车辆挂断。另外,由于传输光信号的光纤十分细微,在检修ODF柜时要特别小心,防止折断尾纤。工程中对光纤和光缆的弯曲度都有严格的要求,实用光纤最小弯曲半径一般为20~50mm,光缆最小弯曲半径为200~500mm,等于或大于光纤最小弯曲半径,光辐射引起的附加损耗可以忽略,若小于最小弯曲半径,附加损耗则急剧增加。
测量光缆、光纤跳线是否中断的简便设备是光功率计。如果察看到光收发器上的RX指示灯灭掉,或用光功率计测量接在光收发器上RX口上的光纤跳线没有光功率,即可断定光缆或尾纤折断,通知网络公司进行抢修。
尾纤或者光纤跳线出现故障的另一个现象是由于长时间使用,它们的纤芯端面可能会比较脏,对光信号会产生折射或散射作用,造成网络传输速度下降或丢包现象。处理该故障的方法是用医酒精轻轻擦拭光纤纤芯的端面,稍等一下,待酒精蒸发完毕后恢复连接就可以了。
光收发器
光收发器的作用是将在光缆中传输的光信号转变为适于在电缆中传输的电信号。我们在维护网络工作中遇到的光收发器的故障主要是其电源故障和过热故障。
电源故障主要是其内部变压器的线圈烧毁或者整流电容爆裂。线圈烧毁造成变压器次级电路无法得到电源,而整流电容爆裂造成后面的电路得不到直流供电。如果我们发现正在使用的光收发器的电源指示灯熄灭了,则肯定是其电源部分出了故障。
光收发器的维护还要注意其工作温度问题。光收发器多位于楼房的单元门口网络设备箱内,通风不畅,有的网络设备箱甚至直接被太阳曝晒,造成光收发器工作过热而死机。表现为用手触摸光收发器有发烫的感觉,其TX、RX指示灯闪烁缓慢,在连接的计算机上上网时,无法正常浏览网页,有严重的丢包现象。这样,当光收发器的温度下降以后,该故障会自动解除。
网线
网线分为直连线和交叉线。现在国际上通用制作网线的标准为T568A和T568B两种。T568A的标准线序为:绿白、绿、橙白、蓝、蓝白、橙、棕白、棕,T568B的标准线序为:橙白、橙、绿白、蓝、蓝白、绿、棕白、棕,两端的RJ-45头中的线序一致的双绞线称为直通线;而一端为T568A,另一端为T568B的网线称为交叉线。虽然双绞线有4对8条芯线,但实际上在网络中只用到了其中的4条,即水晶头的第一、二、三和六脚,它们分别起着收、发信号的作用。网线的故障主要表现在以下两个方面:第一,虽然很多网络设备都有自适应功能,但有些特殊设备对网线的连接有着特殊要求,例如要求连接两个设备的网线为交叉线,而我们习惯上大多都做成了直通线。第二,水晶头制作得不好。水晶头在制作以前,网线需剥去约1.5cm,不熟练的同志制作时,不是剥去得太长了就是太短了,致使压下去的水晶头卡不住网线或网线不能完全插到水晶头底部与插针良好接触。事实上,网络硬件不通的大多原因在于网线的不通。遇到这样的故障,处理的方法是:1、按照网络设备的要求,规范制作网线。2、用网线测试仪测试一下网线,若发现不通,重新制作一下水晶头就可以了。
交换机
交换机的作用是为连接在同一个网络中的计算机提供信息交换的途径。家庭用的一般都是没有管理功能的交换机,其中以桌面交换机居多。例如我台职工平房宿舍和公寓楼,居住人数不多,使用的多是8换机。维护过程中,发现光纤和网线测试没有问题,光收发器工作亦正常,但整排平房用户依然不能上网,后来发现把8换机的电源关闭一下,重新开启,然后网络恢复正常。分析原因,可能是该交换机内部有少量的内存,估计是否是交换机遇到网络风暴死机所致。此种故障在我台不同的8换机发现了有多次,均用此方法处理,网络故障均得以很快解决,其详细原因待查。
光纤耦合器
光纤耦合器,俗称法兰盘,在网络中的作用是定位上一级尾纤或光纤跳线的纤芯与下一级尾纤或光纤跳线的纤芯准确对接,使传输的光信号按照设计的路径继续向下一级传输。我们在维护网络的过程中,经常遇到光纤耦合器的故障是耦合器中间的塑料套圈发生了变形。
我台乙机房距离台区大约有十公里,乙机房与台区通过光缆进行通信。在维护乙机房网络的过程中,发现了一个奇怪的现象:乙机房的内网计算机能够正常浏览网页,但是无论如何使用FTP服务传送不了数据。没有办法,我们从中心交换机到光收发器、光收发器到ODF柜、ODF柜到乙机房光缆终端盒、乙机房光缆终端盒再到内网计算机,一级一级展开查找故障,最终发现是ODF柜上到乙机房的两芯光纤中的一芯的光纤耦合器中间的塑料套圈发生了变形,影响了光信号的正常传输,更换光纤耦合器后故障解除。分析原因可能是塑料套圈变形导致了耦合器定位前后两条光纤跳线纤芯对接不准,造成光纤传输数据率降低,从而出现了网络不能实现FTP业务但能正常浏览网页的怪异现象。
网卡
网卡简称网络接口卡(Network Interface Card,NIC),是计算机局域网中重要的连接设备之一,计算机通过网卡接入网络。在计算机网络中,网卡一方面负责接收网络上发送给本机的数据包,解包后,将数据传输给本地计算机,另一方面将本地计算机上的数据打包后送出网络。我们在网络维护工作中遇到的网卡问题是网卡的自适应功能。
我们在维护职工宿舍网络时,发现有位同事的计算机不能上网,而连接在同一交换机上的其他同事的计算机均能正常上网,测量交换机至故障计算机的网线正常,因而怀疑连接该网线的交换机的端口有问题,随后将该网线插在交换机的另一端口上,仍然不能上网。后来,修改网卡的属性,将其“链路速率和全双工模式”由“自适应”修改为“10兆/全双工模式”,故障计算机上网正常。分析可能是一般的计算机的网卡均支持自适应功能,而该计算机的网卡不支持自适应功能,而我台的外网开口带宽速率恰是10Msps。
(1)故障管理概述
故障是指软、硬件的缺陷;错误则是软硬件的不正确输出;失效是指所有和某故障有关的错误造成的网络的非正常运行。网络故障按生命周期可分为永久故障、暂时故障和瞬间故障三类;按故障对网络造成的空间失效范围的大小,可将失效分为四类:任务失效、基本网络部件失效、结点失效和子网失效。故障管理的主要任务是及时发现并排除网络故障。一般说来,故障管理包括以下几个内容:故障监测和捕获故障产生相关的事件和报警;定位分析故障、记录故障日志;如有可能排除故障等。
(2)故障管理的类型
故障类型指的是具有某种特征的故障的分类。通常我们可以根据故障发生来源的不同,将它们划分为两大类,即硬故障(harderrors)和软故障(softerrors)。
硬故障是指网络的硬件设备在工作过程中产生的各种错误。这些错误与该设备的作用有密切关系,网络系统的复杂性也正是由于设备的多样性而体现出来的。根据这网络设备的作用,我们也可以将故障简单分为以下三类:
①连接设备故障
这种故障的现象主要是网络的物理连接出现问题,也可以称为通路故障。造成故障的原因可能是电缆线断开、收发器断开或不能正常工作以及其它连接设备间的接口出问题等等。根据这类故障的来源不同,我们又可以将该类型的故障细分为线路故障、网络接口故障、收发器故障、路由器故障等等,该类故障是故障管理的最主要对象。
②共享设备故障
这种故障的表现是用于资源共享的设备出现问题,不能提供或享受所需的服务。同样,该类型的故障也可以细分为服务器故障(打印机故障、文件服务器故障等)、工作站故障等等。
③其它设备故障。包括电源故障、监控器故障、测试仪故障、分析仪故障等等。
软故障是指网络系统软件运行出错。软故障的发现和处理是在管理过程中逐渐被人们所认识的,因为软件属于一种无形的东西,问题的表现不如硬件那么直观。从这个意义上看,软故障的识别和诊断更加困难。故障管理中所处理的软故障主要针对与网络通讯和服务有关的系统软件,它可以直接根据网络软件来划分,包括通讯协议软件故障、网络文件系统(FNS)故障、文件传输软件故障、域名服务系统(DNS)等等,其中通讯协议软件故障是系统研究的重点。这种错误通常是在协议软件运行时遇到某个异常条件(如缓冲队列满)或协议软件本身未提供可靠机制而导致传输失败,报文丢失。
故障类型并不是一成不变的,随着网络在复杂性和规模上提高,网络故障管理的要求也在不断增加。新的技术、设备的应用使故障的类型、故障原因、故障源等各方面都发生了变化,这就要求故障管理系统必须增加新的内容。
(3)故障管理的功能
故障管理的根本目标在于排除网络中出现的各种故障,达到这一目标要求系统至少必须具备检测、隔离和纠正故障的能力。
故障检测(detection)是指对系统的性能和状态进行检查和测试,根据结果和一定的识别规则判断系统是否故障。故障检测要求管理系统监视网络的工作,考查网络的状态及其变化,一旦发现系统出现故障马上进行报警。
故障隔离(isolation)是指确定故障发生的位置,通俗地说就是指出谁发生了故障,如哪个子网、哪个设备或者设备的哪个部件,对于软故障则指明哪个系统出了问题。由于网络是一个复杂的系统,故障类型、原因、故障源多种多样,而且不同故障的表现可能完全相同,这就导致了故障隔离的复杂性。隔离系统应当尽可能地缩小故障源的范围。
故障纠正(correction)是指纠正所发生的错误,恢复系统的正常工作。故障纠正建立在前两者的基础之上,目前所采取的手段除了进行硬件维修、系统重启、一定程度的恢复外,还包括一些非技术性的活动,如人员的使用和技术培训以及设备生产厂商的支持等。
(4)影响故障管理的因素
与网络管理一样,故障管理也必须考虑三方面的因素:过程、设备和工具、人员。成功的故障管理策略是这三者的完整结合,而不仅仅是其中的某一个方面。
过程主要指为实现故障管理功能而进行的操作,下一节介绍的内容就属于故障管理的过程。了解管理的一般过程是开发一个实用的故障管理系统的基础。
设备和工具指的是进行故障管理的软硬件工具,包括故障检测设备、维修设备、实用的故障管理系统等。设备和工具在故障管理中起着非常重要的作用,它可以帮助管理员和工程师实施管理功能,排除故障,保障网络系统正常运转。
下面介绍的就是几种专用的物理设备:
①时间域反射测量仪(TDR)。通过显示物理介质传输信号的波形表明设备或链路是否故障。
②网络监视器。监视网络上各结点的状态,得到网络的各种统计数字,以确定是否故障。
③网络分析仪。实时分析结点的收发报文,帮助管理者跟踪和隔离故障。管理人员在故障管理中的任务主要是维护管理系统和工具的运行,并在它们的帮助下完成故障排除和系统恢复工作。
2.智能化网络管理的概述
为了能够更有效地对各种大型复杂的网络进行管理,许多研究人员将人工智能技术应用到网络管理领域。虽然全面的智能化的网络管理距离实际应用还有相当长的一段路要走,但是在网络管理的特定领域实施智能化,尤其是基于专家系统技术的网络管理是可行的。
用于故障管理的专家系统由知识库、推理机、知识获取模块和解释接口四大主要部分组成。专家系统以其实时性、协作管理、层次性等特点,特别适合用在网络的故障管理领域。但同时专家系统也面临一些难题:
(1)动态的网络变化可能需要经常更新知识库。
(2)由于网络故障可能会相关到其它许多事件,很难确定与某一症状相关的时间的开始和结束,解释和综合消息复杂。
(3)可能需要大量的指令用以标识实际的网络状态,并且专家系统需要和它们接口。
(4)专家系统的知识获取一直以来是瓶颈所在,要想成功地获取网络故障知识,需要经验丰富的网络专家。
在实现智能化网络管理系统时,还必须把握系统复杂性与系统性能的关系。不仅要利用将较为成熟的人工智能技术,而且要考虑实现上的复杂度和引入人工智能技术对系统性能和稳定性的影响。
3.事件知识库的研究
在专家系统中,知识的表示有逻辑表示法、语义网络表示法、规则表示法、特性表示法、框架表示法和过程表示法。产生式表示法,即规则表示法,是最常见的一种表示法。其特点是模块性、一致性和自然。知识库是知识的集合,严格意义上的知识库包括概念、事实和规则只部分,缺一不可。
为了提高故障管理的智能水平,可以建立事件知识库(EKB,EventKnowledgeBase,用于存储所有己知事件的类型、产生事件的原因和所造成的影响,以及应该采取什么样的措施等一些细节的静态描述。这个EKB并不是真正意义上的知识库,它的数据仅仅包含了属性值与元组,而属性值表示概念,元组表示事实。但研究EKB可以为今后建立完善的知识库奠定基础。
在EKB中存储了己经确定事件。最初,被确定的事件仅限于一些标准事件和措施。随着网络的运行和系统的反馈,EKB的内容将不断增加。
理想状态是能够确定所有的事件。
下面是EKB涉及到的只种基本的数据库表:
(1)事件类型表:该表中主要存储了事件的静态定义。
EKB中保存了己确定的事件可能涉及的相关知识,如事件类别(如:性能、系统、网络、应用事件或其它)、严重程度(如:严重、主要、次要、警告等)、产生事件的设备标识、指明设备的类型、事件造成什么影响(如:影响网速、单个用户不能访问等)、故障排除参考策略、上次更新的时期/时间、关于这个事件的备注信息、事件的详细描述等。
(2)实时事件表:描述了正在运行的网络中的实时事件。
实时事件表中提供可能用的一些字段,用于记录网络运行中发生的事件,如:设备的ID(从IP地址或查询设备表可以获得)、实时事件的状态(如:新增、确认、清除等)、根据故障票ID获得的相应的故障票信息等。
(3)设备信息表:存储了网络中设备的实际参数。
设备信息表主要记录了每个设备的相关参数。例如,设备ID号、IP地址、设备名称、厂商、类型、重要性级别等。
EKB中存储的相关事件的知识主要来源于专家。开发人员将获得的知识应用到与故障管理相关的系统中,根据不同系统的需要分配相应的知识,以提高系统性能。虽然EKB并不是严格意义上的知识库,但在开发过程中,可以通过不断地增加和修正EKB的内容,在一定程度上提高系统的智能水平。
4.结论
文中分析了网络故障的类型,提出将事件知识库用于计算机网络故障的智能管理。实验表明,计算机网络故障的智能管理提供了基于知识的决策手段,比传统的管理方式具有更高的决策水平,为专家系统技术在故障的检测和隔离方面更加广泛的应用,奠定了一定基础。
关键词:网络互联网路由器故障诊断
一.引言
世纪之交,全球因特网高速发展。抓住机遇,迎接挑战,我国的网络建设方兴未艾。政府上网工程拉开序幕,网络建设的新已经到来。网络诊断是管好、用好网络,使网络发挥最大作用的重要技术工作之一。本文首先简单介绍网络及路由器的基本概念,简述分层诊断技术,结合讨论路由器各种接口的诊断,综述互联网络连通性故障的排除。
二.网络与路由器概述
网络诊断是一门综合性技术,涉及网络技术的方方面面。为方便下面的讨论,首先简单回顾一下网络和路由器的基本概念。
1.计算机网络是由计算机集合加通信设施组成的系统,即利用各种通信手段,把地理上分散的计算机连在一起,达到相互通信而且共享软件、硬件和数据等资源的系统。计算机网络按其计算机分布范围通常被分为局域网和广域网。局域网覆盖地理范围较小,一般在数米到数十公里之间。广域网覆盖地理范围较大,如校园、城市之间、乃至全球。计算机网络的发展,导致网络之间各种形式的连接。采用统一协议实现不同网络的互连,使互联网络很容易得到扩展。因特网就是用这种方式完成网络之间联结的网络。因特网采用TCP/IP协议作为通信协议,将世界范围内计算机网络连接在一起,成为当今世界最大的和最流行的国际性网络。
2.为了完成计算机间的通信,把每部计算机互连的功能划分成定义明确的层次,规定了同层进程通信的协议及相邻层之间的接口和服务,将这些层、同层进程通信的协议及相邻层之间的接口统称为网络体系结构。国际标准化组织(ISO)提出的开放系统互连参考模型(OSI)是当代计算机网络技术体系的核心。该模型将网络功能划分为7个层次:物理层、数据链路层、网络层、传输层、会话层、表示层和应用层。
3.TCP/IP即传输控制协议和网间互联协议是一组网络协议。TCP/IP起源于美国ARPANET网,发展至今已成为因特网使用的标准通信协议。使用TCP/IP能够使采用不同操作系统的计算机以有序的方式交换数据。
4.路由器是一种网络设备,是用于网络连接、执行路由选择任务的专用计算机。路由器工作于网络层,对信包转发,并具有过滤功能。路由器能够将使用不同技术的两个网络互连起来,能够在多种类型的网络之间(局域网或广域网)建立网络连接。它将处在七层模型中的网络层的信息,根据最快、最直接的路由原理从一个网络的网络层传输到另一个网络的网络层,以达到最佳路由选择。同时在内部使用高档微处理器,用高速的内部总线连接适合各种网络协议的接口卡。并具有多种网管功能,能监视与路由器相连接的一些网络设备和它们的配置运行情况。
5.CISCO路由器是目前网络建设中使用最多的一种路由器,有多种档次、多种系列,目前常用的当属2500系列,本文以2500系列为例讨论。2500系列路由器是固定接口的多协议路由器,支持CISCOIOS全部功能。根据特定的协议环境分为以下四种类型:固定配置的路由器(2501)、带HUB口的路由器(2507)、摸块化的路由器(2514)和访问服务器(2511)。它们结构简单、操作方便、易于配置和管理,是一种用于小规模局域网和广域网网络层中继的路由设备。
6.CISCOIOS是CISCO所特有的互连网操作系统,所有的CISCO产品都运行IOS,IOS将它们无缝连接在一起协同工作。给用户提供一个可支持任意硬件界面、任意链路层、网络层协议的可扩展的开放型网络。IOS支持众多的协议,包括各种网络通信协议和路由协议等。CISCOIOS已成为工业界网际网互联的事实标准。CISCOIOS提供几种不同的操作模式,每一种模式提供一组相关的命令集、不同的操作权限和操作功能。基于安全目的,CISCO用户界面中有两级访问权限:用户级和特权级。第一级访问允许查看路由状态,叫做用户EXEC模式,又称为查看模式;第二级访问允许查看路由器配置、修改配置和运行调试命令,叫做特权EXEC模式,又称为配置模式。在特权级中,按不同的配置内容,可进入不同的配置模式,如全球配置模式、接口配置模式、线配置模式等。
三.网络故障诊断概述
网络故障诊断应该实现三方面的目的:确定网络的故障点,恢复网络的正常运行;发现网络规划和配置中欠佳之处,改善和优化网络的性能;观察网络的运行状况,及时预测网络通信质量。
网络故障诊断以网络原理、网络配置和网络运行的知识为基础。从故障现象出发,以网络诊断工具为手段获取诊断信息,确定网络故障点,查找问题的根源,排除故障,恢复网络正常运行。
网络故障通常有以下几种可能:物理层中物理设备相互连接失败或者硬件及线路本身的问题;数据链路层的网络设备的接口配置问题;网络层网络协议配置或操作错误;传输层的设备性能或通信拥塞问题;上三层CISCOIOS或网络应用程序错误。诊断网络故障的过程应该沿着OSI七层模型从物理层开始向上进行。首先检查物理层,然后检查数据链路层,以此类推,设法确定通信失败的故障点,直到系统通信正常为止。
网络诊断可以使用包括局域网或广域网分析仪在内的多种工具:路由器诊断命令;网络管理工具和其它故障诊断工具。CISCO提供的工具足以胜任排除绝大多数网络故障。查看路由表,是解决网络故障开始的好地方。ICMP的ping、trace命令和Cisco的show命令、debug命令是获取故障诊断有用信息的网络工具。我们通常使用一个或多个命令收集相应的信息,在给定情况下,确定使用什么命令获取所需要的信息。譬如,通过IP协议来测定设备是否可达到的常用方法是使用ping命令。ping从源点向目标发出ICMP信息包,如果成功的话,返回的ping信息包就证实从源点到目标之间所有物理层、数据链路层和网罗层的功能都运行正常。如何在互联网络运行后了解它的信息,了解网络是否正常运行,监视和了解网络在正常条件下运行细节,了解出现故障的情况。监视那些内容呢?利用showinterface命令可以非常容易地获得待检查的每个接口的信息。另外showbuffer命令提供定期显示缓冲区大小、用途及使用状况等。Showproc命令和showprocmem命令可用于跟踪处理器和内存的使用情况,可以定期收集这些数据,在故障出现时,用于诊断参考。
网络故障以某种症状表现出来,故障症状包括一般性的(象用户不能接入某个服务器)和较特殊的(如路由器不在路由表中)。对每一个症状使用特定的故障诊断工具和方法都能查找出一个或多个故障原因。一般故障排除模式如下:第一步,当分析网络故障时,首先要清楚故障现象。应该详细说明故障的症侯和潜在的原因。为此,要确定故障的具体现象,然后确定造成这种故障现象的原因的类型。例如,主机不响应客户请求服务。可能的故障原因是主机配置问题、接口卡故障或路由器配置命令丢失等。第二步,收集需要的用于帮助隔离可能故障原因的信息。向用户、网络管理员、管理者和其他关键人物提一些和故障有关的问题。广泛的从网络管理系统、协议分析跟踪、路由器诊断命令的输出报告或软件说明书中收集有用的信息。第三步,根据收集到的情况考虑可能的故障原因。可以根据有关情况排除某些故障原因。例如,根据某些资料可以排除硬件故障,把注意力放软件原因上。对于任何机会都应该设法减少可能的故障原因,以至于尽快的策划出有效的故障诊断计划。第四步,根据最后的可能的故障原因,建立一个诊断计划。开始仅用一个最可能的故障原因进行诊断活动,这样可以容易恢复到故障的原始状态。如果一次同时考虑一个以上的故障原因,试图返回故障原始状态就困难的多了。第五步,执行诊断计划,认真做好每一步测试和观察,直到故障症状消失。第六步,每改变一个参数都要确认其结果。分析结果确定问题是否解决,如果没有解决,继续下去,直到解决。
四.网络故障分层诊断技术
1.物理层及其诊断
物理层是OSI分层结构体系中最基础的一层,它建立在通信媒体的基础上,实现系统和通信媒体的物理接口,为数据链路实体之间进行透明传输,为建立、保持和拆除计算机和网络之间的物理连接提供服务。
物理层的故障主要表现在设备的物理连接方式是否恰当;连接电缆是否正确;MODEM、CSU/DSU等设备的配置及操作是否正确。
确定路由器端口物理连接是否完好的最佳方法是使用showinterface命令,检查每个端口的状态,解释屏幕输出信息,查看端口状态、协议建立状态和EIA状态。
2.数据链路层及其诊断
数据链路层的主要任务是使网络层无须了解物理层的特征而获得可靠的传输。数据链路层为通过链路层的数据进行打包和解包、差错检测和一定的校正能力,并协调共享介质。在数据链路层交换数据之前,协议关注的是形成帧和同步设备。
查找和排除数据链路层的故障,需要查看路由器的配置,检查连接端口的共享同一数据链路层的封装情况。每对接口要和与其通信的其他设备有相同的封装。通过查看路由器的配置检查其封装,或者使用show命令查看相应接口的封装情况。
3.网络层及其诊断
网络层提供建立、保持和释放网络层连接的手段,包括路由选择、流量控制、传输确认、中断、差错及故障恢复等。
排除网络层故障的基本方法是:沿着从源到目标的路径,查看路由器路由表,同时检查路由器接口的IP地址。如果路由没有在路由表中出现,应该通过检查来确定是否已经输入适当的静态路由、默认路由或者动态路由。然后手工配置一些丢失的路由,或者排除一些动态路由选择过程的故障,包括RIP或者IGRP路由协议出现的故障。例如,对于IGRP路由选择信息只在同一自治系统号(AS)的系统之间交换数据,查看路由器配置的自治系统号的匹配情况。
五.路由器接口故障排除
1.串口故障排除
串口出现连通性问题时,为了排除串口故障,一般是从showinterfaceserial命令开始,分析它的屏幕输出报告内容,找出问题之所在。串口报告的开始提供了该接口状态和线路协议状态。接口和线路协议的可能组合有以下几种:1)串口运行、线路协议运行,这是完全的工作条件。该串口和线路协议已经初始化,并正在交换协议的存活信息。2)串口运行、线路协议关闭,这个显示说明路由器与提供载波检测信号的设备连接,表明载波信号出现在本地和远程的调制解调器之间,但没有正确交换连接两端的协议存活信息。可能的故障发生在路由器配置问题、调制解调器操作问题、租用线路干扰或远程路由器故障,数字式调制解调器的时钟问题,通过链路连接的两个串口不在同一子网上,都会出现这个报告。3)串口和线路协议都关闭,可能是电信部门的线路故障、电缆故障或者是调制解调器故障。4)串口管理性关闭和线路协议关闭,这种情况是在接口配置中输入了shutdown命令。通过输入noshutdown命令,打开管理性关闭。
接口和线路协议都运行的状况下,虽然串口链路的基本通信建立起来了,但仍然可能由于信息包丢失和信息包错误时会出现许多潜在的故障问题。正常通信时接口输入或输出信息包不应该丢失,或者丢失的量非常小,而且不会增加。如果信息包丢失有规律性增加,表明通过该接口传输的通信量超过接口所能处理的通信量。解决的办法是增加线路容量。查找其他原因发生的信息包丢失,查看showinterfaceserial命令的输出报告中的输入输出保持队列的状态。当发现保持队列中信息包数量达到了信息的最大允许值,可以增加保持队列设置的大小。
2.以太接口故障排除
以太接口的典型故障问题是:带宽的过分利用;碰撞冲突次数频繁;使用不兼容的幀类型。使用showinterfaceethernet命令可以查看该接口的吞吐量、碰橦冲突、信息包丢失、和幀类型的有关内容等。
1)通过查看接口的吞吐量可以检测网络的利用。如果网络广播信息包的百分比很高,网络性能开始下降。光纤网转换到以太网段的信息包可能会淹没以太口。互联网发生这种情况可以采用优化接口的措施,即在以太接口使用noiproute-cache命令,禁用快速转换,并且调整缓冲区和保持队列。
2)两个接口试图同时传输信息包到以太电缆上时,将发生碰橦。以太网要求冲突次数很少,不同的网络要求是不同的,一般情况发现冲突每秒有3、5次就应该查找冲突的原因了。碰橦冲突产生拥塞,碰橦冲突的原因通常是由于敷设的电缆过长、过分利用、或者“聋”节点。以太网络在物理设计和敷设电缆系统管理方面应有所考虑,超规范敷设电缆可能引起更多的冲突发生。
3)如果接口和线路协议报告运行状态,并且节点的物理连接都完好,可是不能通信。引起问题的原因也可能是两个节点使用了不兼容的幀类型。解决问题的办法是重新配置使用相同幀类型。如果要求使用不同幀类型的同一网络的两个设备互相通信,可以在路由器接口使用子接口,并为每个子接口指定不同的封装类型。
3.异步通信口故障排除
互连网络的运行中,异步通信口的任务是为用户提供可靠服务,但又是故障多发部位。主要的问题是,在通过异步链路传输基于LAN通信量时,将丢失的信息包的量降止最少。
异步通信口故障一般的外部因素是:拨号链路性能低劣;电话网交换机的连接质量问题;调制解调器的设置。检查链路两端使用的调制解调器:连接到远程PC机端口调制解调器的问题不太多,因为每次生成新的拨号时通常都初始化调制解调器,利用大多数通信程序都能在发出拨号命令之前发送适当的设置字符串;连接路由器端口的问题较多,这个调制解调器通常等待来自远程调制解调器的连接,连接之前,并不接收设置字符串。如果调制解调器丢失了它的设置,应采用一种方法来初始化远程调制解调器。简单的办法是使用可通过前面板配置的调制解调器,另一种方法是将调制解调器接到路由器的异步接口,建立反向telnet,发送设置命令配置调制解调器。
showinterfaceasync命令、showline命令是诊断异步通信口故障使用最多的工具。showinterfaceasync命令输出报告中,接口状态报告关闭的唯一的情况是接口没有设置封装类型。线路协议状态显示与串口线路协议显示相同。showline命令显示接口接收和传输速度设置以及EIA状态显示。showline命令可以认为是接口命令(showinterfaceasync)的扩展。showline命令输出的EIA信号及网络状态:
noCTSnoDSRDTRRTS:调制解调器未与异步接口连接。
CTSnoDSRDTRRTS:调制解调器与异步接口连接正常,但未连接远程调制解调器。
CTSDSRDTRRTS:远程调制解调器拨号进入并建立连接。
确定异步通信口故障一般可用下列步骤:检查电缆线路质量;检查调制解调器的参数设置;检查调制解调器的连接速度;检查rxspeed和txspeed是否与调制解调器的配置匹配;通过showinterfaceasync命令和showline命令查看端口的通信状况;从showline命令的报告检查EIA状态显示;检查接口封装;检查信息包丢失及缓冲区丢失情况。
关键词:网络故障;故障检测;故障定位;故障诊断;专家系统;数据挖掘;神经网络
中图分类号:TP393.06
随着计算机、通信以及互联网技术的飞速发展及应用,网络作为一种重要的工具,在军事、政治、经济和科研等诸多领域起着越来越重要的作用,已经成为社会生产和生活必不可少的一部分。与此同时,网络的规模和复杂性不断增大,一旦网络发生故障,如果不能在有效时间内对网络故障进行诊断与修复,将会造成巨大的损失,甚至严重威胁社会的安全与稳定,因此对网络故障诊断技术进行研究具有越来越重要的应用价值和现实意义。
1 网络故障诊断一般过程
通常来说,网络故障诊断是以网络原理、网络配置和网络运行的知识为基础,根据网络出现的故障现象,并使用专门的网管理和检测工具以获取告警信息进而对网络中出现的故障进行诊断、恢复以及预测的过程,一般可分为以下五个部分[1]:
(1)故障检测,即网络故障告警信息的获取。网络发生故障时,通过主动轮询或异步收集方式,对网络中的相关设备或服务的相关告警信息、设置和性能参数,状态信息等进行收集和分析,及时发现网络出现的故障及问题。
(2)故障定位,即定位故障源。对故障检测阶段收集的海量告警数据进行分析和处理,在网络中找出故障,为下一步的故障原因的诊断提供依据。
(3)故障原因的诊断,即查找故障产生的根源。根据故障定位的结果综合运用各种规则进行系统的推理,快速的找到故障产生的原因或者最可能的原因。
(4)故障修复。根据网络故障诊断结果修复网络故障,恢复网络的正常运行。
(5)故障预测,即根据先验知识和监测数据预测网络可能发生的故障。
其中故障检测,故障定位,故障原因诊断是必不可少的三个步骤,下面将重点对上述三个步骤进行详细的介绍。
2 网络故障检测
通常计算机网络通过以下两种方式收集信息,通过分析收集到的信息来检测故障[2]。
(1)Trap机制。在网络中每一个被管设备中都要运行一个程序以便和管理站中的管理程序进行通信。
(2)主动轮询。网络中发生故障的被管设备或服务主动向网络管理系统发出告警信息,能够及时发现网络中的故障,网络管理系统还需通过主动轮询这种方式了解与网络性能密切相关的信息,并对这些影响网络性能信息设置阈值,来判断网络性能,超过设定阈值也会触发事件。
3 网络故障定位
网络系统中,一般通过监测被管设备或服务等各种方法获取大量原始告警数据或历史积累信息,这些数据往往由于通信系统的复杂性、网络结构异构性、噪声、外界因素、因果关系等原因而具有相当大的不确定性和不精确性,导致故障症状和故障原因都存在非线性映射关系,需要利用关联技术对数据进行处理和分析才有效的进行故障定位[3],目前常用的故障定位技术主要有下面几种:
3.1 基于人工智能的故障定位技术
3.1.1 基于规则的推理技术
基于规则的推理(Rule-based Reason,RBR)是最简单的关联技术,已被用于多种构架。一般而言,基于规则的系统由三个组成部分组成,如图1所示。
(1)推理引擎,主要提供解决问题所需要的策略。
(2)知识库,提供和定义与问题相关的规则和专家知识。
(3)工作内存,主要提供解决问题所需要的数据。
在基于规则的推理的网络故障定位系统中,知识库充当一个专家的角色,利用从人类专家获取专家积累的经验和知识,这些知识主要包括对网络问题的定义以及当某一特定问题发生时,网络故障定位系统需要执行的操作。工作内存主要是利用具体的网络协议对网络中的被管设备或服务进行监测,得到有关被管设备或服务的各种信息。在对网络故障进行定位时,推理引擎与知识库共同合作,将监测得到的网络中被管设备或服务的状态信息与知识库中定义好的条件部分进行比对,根据条件满足与否,来进行网络故障的定位。
基于规则的网络故障定位系统,由于无需对专家系统的具体结构和操作细节进行深入了解,从而具有结构简单等诸多优点,并且实现起来比较简单,非常适用于小型系统。但是基于规则的网络故障定位系统在匹配规则时,需要网络状态与知识库中的规则条件精确匹配,否则将推出整个推理过程,无法定位故障,并且规则存在不易维护性和指数增长性,所有这些缺点决定了基于规则的网络故障定位系统不适用大型系统。
3.1.2 基于模型的推理技术
基于模型的推理(Model-based Reason,MBR)是建立在面向对象上的基础之上,利用现有的专家经验和知识,将具体的目标系统中的实体都模型化诊断对象,并且明确地表现出现实目标系统中对象之间存在的各种关联关系,再根据系统模型对具体的目标系统的行为进行推测。由于通常情况下,具体的目标系统与理想的系统模型之间存在差异性,因此基于模型的推理的专家系统需要对推测的行为和目标系统的实际行为进行不一致诊断,以确定具体目标系统中的故障根源。
为了更好地说明基于模型的推理专家系统的工作流程,文献[4]使用一个物理模型和对应的对等模型分别如图2、3所示的网络系统。网络系统按一定的周期,有规律的向图2中的被管设备发送ping命令以监测网络系统中的被管设备是否运行正常。管理系统和被管设备之间通过一个模型对象实现彼此之间的相互通信,具体来说,如图2所示,系统中的集线器模型向被管设备集线器发送ping命令,路由器模型则向被管设备路由器发送ping命令。当目标网络发生故障时,如果故障发生在集线器1,则集线器1模型可以将其发现并且识别出来,如果集线器1模型连续3次向被管设备集线器1发送ping命令,在3次响应超时以后,集线器模型1根据现有的网络现象推测被管设备集线器1有可能发生故障,或者说目标系统中的故障位于集线器1。集线器1模型则会在确定故障并正式发送告警信息之前,集线器1模型将分析自身与图2中其他被管设备的模型之间的关系以此来确定其是否应该询问网络中路由器模型,如网络中的路由器模型返回的是相应的被管路由器设备工作处于正常状态,则集线器1触发警报。
3.1.3 基于范例的推理技术
基于范例的推理(Case-based Reason,CBR)故障定位技术与前面的基于规则推理技术和基于模型推理技术相比具有很大的差异性,主要因为基于范例的推理技术的思想源于人类现实生活,主要根据过去积累的实际经验或经历,利用类比的推理方法对现有的新问题做出相似的解答,然后根据新问题与旧问题之间的差异对解答进行修改从而得到新问题的完全解答。基于范例推理的网络故障定位技术主要由四个部分组成,检索 (Retrieve)、复用(Reuse)、修正(Revise)、保存(Retain),简称4R过程。
基于范例推理的故障定位技术与基于规则推理的故障定位技术相比,由于在基于范例推理的故障定位技术中检索只是基于对案例的部分匹配,而基于规则推理的故障定位技术则是完全匹配,因此基于范例推理的故障定位技术对网络配置变化的适应度更好,更适用于问题的总体解决方案。
3.2 模型遍历技术
模型遍历技术(Model traversing techniques)是一种构建网络故障传播模型的方法,该方法在构建故障传播模型时,主要根据网络在运行时各种被管对象之间的相互关系,并且按照从引起事件的被管对象开始的顺序进行构建。该方法主要适用于网络中被管对象之间的相互关系类似于图形,并且一般情况下较容易获取的情况,并且在系统配置变化较频繁时该方法的鲁棒性很好。模型遍历技术主要具有两大特点,事件驱动和事件关联,所谓事件驱动是指在一个故障症状报告到来之前,系统一直处于等待故障症状状态;事件关联则是确定两个故障症状是否来源同一个事件源。
一般情况下,模型遍历技术需要在其事件报告中明确标识网络系统中故障的征兆类型、征兆目标等相关信息,如果网络系统中出现故障征兆,且不妨用si来表示该故障征兆,当si的目标和si来源相同,则说明si是一个次要征兆也就说明某些告警信息可以被忽略。模型遍历技术的整个处理可分为以下3步:
(1)首先,对网络中的每个事件,依据网络在运行时各种被管对象之间的相互关系对其构建一个和事件源相关的对象图。
(2)当给定的两个事件的对象图相交时,此时说明两个图至少包含同一个对象,则认为这两个对象图的事件源是关联的。
(3)当给定三个故障症状si,sj,sk,其中si,sj相互关联,sj,sk相互关联,则根据故障症状的传递性可知si是一个次要的故障症状。
4 网络故障原因诊断
(1)基于信号处理方法。该方法主要是依据信号模型,直接对网络系统中的可测信号进行分析与处理,并通过提取可测信号的频率等特征值,对网络中存在的故障原因进行诊断。
(2)基于解析模型的方法。基于解析模型的方法主要依据数学模型和数学方法来进行故障原因的诊断,在诊断时需要建立对象的精确数学模型。
(3)基于知识检测的方法。与基于解析模型方法相比,此方法最大的特点在于其并不需要对象的精确数学模型就可以对网络中的故障原因进行诊断。
下面主要介绍几种目前国内外研究学者研究比较多的基于知识检测的方法,基于专家系统故障原因诊断方法和基于模糊理论故障原因诊断方法以及基于BP神经网络故障原因检测方法。
4.1 基于专家系统故障原因诊断方法
基于专家系统故障原因诊断系统主要是利用人类专家的经验和历史积累诊断数据,使用一定的方法将其转化为系统能够识别的规则存在专家系统的知识库中。当网络中出现故障时,诊断系统利用专家系统知识库中的规则,对发生故障网络中的被管对象的各项性能参数进行处理与分析以正确的确定网络故障发生的具体原因[5]。组成由人机接口、推理机、知识库等六部分组成:
目前,国内外学者公认的专家系统瓶颈是知识获取问题,因为专家系统在诊断过程中主要依赖于从人类专家领域内获取的知识、经验和以往诊断数据,而这些获取起来途径有限,操作起来具有一定的局限性和复杂性。另外,专家系统在实时性和学习能力等方面也存在一定的局限性,因此目前通常将专家系统同其他方法相结合以提高专家系统在这些方面存在的局限性和不足。
4.2 模糊故障诊断方法
很多时候,网络中的故障与系统得到的网络现象之间存在非线性的映射关系,这种非线性的映射关系很难用确定的数学公式或者模型来刻画,相应的在故障原因诊断时,很难给出故障的精确原因。相反,只能给出故障发生的可能原因。对于这种存在一定模糊性的问题,可以使用模糊逻辑来解决。
目前使用的比较多的是向量识别法,其诊断过程可分为以下3步:
首先,需要根据网络中的故障与表征网络故障的数据,建立二者之间的关系,通常用关系矩阵R来表示。
其次,对需要诊断的目标网络系统(对象)进行状态检测,提取相关的特征参数以构建特征向量矩阵X。
最后,根据模糊理论和矩阵理论,求解前面两步构建的关系矩阵方程Y=X・R,得到关系矩阵方程的解Y,再根据隶属度等原则,对目标网络系统的故障向量Y进行处理,得到故障的原因。
从上述诊断过程可知,在模糊故障诊断中,正确的进行故障原因诊断的前提是建立关系矩阵R、隶属函数、特征值向量X,而这些矩阵、函数、向量的建立是人为构造而成,难免具有一定的主观性,并且由于该模糊诊断方法对特征元素的选取也有一定的要求,所以两者若处理不当,会导致该方法的诊断结果精度严重下降甚至完全错误。
4.3 BP神经网络诊断方法
由于人工神经网络的这些特性以及网络中故障与征兆之间有可能存在的非线性映射关系,使得人工神经网络在网络故障诊断中大有用武之地。目前,人工神经网络已经大量应用在网络故障诊断领域。BP神经网络是常用的人工神经网络模型[6]。
BP神经网络故障诊断分为训练和诊断两个阶段:
(1)训练阶段。BP神经网络对样本进行训练,以选定网络结构和规模,确定网络总层数、各层神经元数。借助BP学习算法,将原始网络收集到的故障样本的特征参数作为BP神经网络输入样本集,以与之对应的网络故障原因编码为BP神经网络的输出,以此对BP神经网络进行训练。
(2)故障诊断阶段。主要对待检测对象的故障样本进行特征提取和归一化处理,然后输入到BP神经网络进行诊断输出诊断结果,整个过程分为以下4个步骤:1)故障样本集预处理。2)BP网络结构设计。3)训练BP神经网络。4)故障诊断。
5 结束语
本文对网络故障的概念以及基本过程进行了概述,重点对当前网络故障中的故障检测、故障定位、故障诊断的关键技术及方法进行了研究和总结归纳,对开展网络故障诊断技术研究具有一定的指导意义。
参考文献:
[1]王成等.网络故障诊断技术研究[J].科技信息,2011(11).
[2]陈琳.一种网络环境中的故障诊断模型[J].北京航空航天大学学报,2004(11).
[3]张燕.网络故障诊断关键技术[J].电脑知识与技术,2009(31).
[4]李千目.战略互联网智能诊断技术研究[D].南京理工大学,2005.
[5]吴晓知,李兴明.网络故障管理专家系统中知识库的构造[J].微计算机信息,2008(06).
[6]戚涌,刘凤玉.基于BP神经网络的网络智能诊断系统[J].微电子学与计算机,2004(10).
【关键词】网络故障,网络维护,物理故障,逻辑故障,分类
中图分类号:TN711 文献标识码:A 文章编号:
一、前言
随着网络应用的普及,人们对网络的正常稳定运行提出了越来越高的要求。如果运行中的网络出现了故障,都会给使用者造成不同程度的影响,轻则使一些用户不能正常使用网络,严重的会导致整个网络瘫痪,不能使用。常见的网络故障分为两大类:物理故障和逻辑故障。遇到故障时,通常来说按先物理故障再逻辑故障的顺序进行检查。网络出现故障后应及时的进行维护,以最快的速度恢复网络的正常运行。
二、网络故障的分类
网络故障有很多种,故障产生的原因、部位和造成的影响也是不同的。以网络故障的性质可分为物理故障和逻辑故障。物理故障一般指的是发生在线路、设备等硬件类故障问题,例如:端口故障,线路故障,交换机或路由器故障,主机物理故障等。而逻辑故障则包涵主机逻辑故障,一些重要进程或端口关闭等故障。
三、网络维护的步骤
1、识别故障并对故障进行描述;
2、收集故障的相关信息并确定其定义和故障影响的范围;
3、列举出可能造成这些故障的原因,确定范围找出故障;
4、设计诊断故障的方案,按照诊断方案解决故障;
5、对这个解决方案进行备忘,尽量设计出预防措施
四、排除网络故障的思路
当我们遇到网络故障的时候,我们要迅速的找到故障的位置,而且还要确定故障发生的原因。分时网络故障的时候,先要弄清出故障的现象,仔细地了解故障的潜在原因。尽可能收集需要用于帮助隔离可能的故障的原因。其次,列举出可能导致故障的原因并且根据相关情况一个一个的分析,尽量降低排除故障的工作的复杂度,比如根据某些信息排除硬件故障,从而把注意力放在一些有疑点的软件上。最后,要认真仔细地做好每一步的观察测试工作,当改变一个参数后都要确认结果,确定问题有没有解决掉,若故障没有被解决,则要继续下去直到故障消除。
五、常见网络故障排除
造成网络故障的原因突出显示,但总体上来说就是软件问题和硬件问题,准确的说是网络连通性故障、网络协议故障和网络配置故障。
在日常的网络维护中,线路故障的发生率非常的高,大约占发生网络故障的70%。线路相关的故障一般包括网线、水晶插头的损坏或者是水晶头与线的接触不良导致的线路故障。电缆连接问题是经常出现的,特别要注意受损的电缆、电缆类型不正确或线路受到严重电磁干扰等。
对于这类问题最简单的解决方法就是通过目测的方法来判断电缆的连接性。仔细检查交换机、 HUB、收发器或网卡等网络设备的状态灯, 从状态灯的点亮或闪烁情况就可以判断电缆是不是连通的。对于电磁干扰这些故障的排查,屏蔽性比较强的屏蔽线可以被用在该段网路上进行通信测试,假如通信是正常的,那就表明存在明显的电磁干扰,要注意远离像高压电线等电磁场较强的地方。
集线器、交换机和路由器故障是指它们由于物理损坏,无法工作,导致网络不通。解决这个故障的方法就是用替换排除的方法, 用正常通信的网线连接主机集线器或路由器,连接后如若能正常通信的话, 那么集线器或路由器是完好的;连接后不能正常通信的话,接下来就转换集线器端口然后进行排查,看端口和集线器或路由器哪个出现了故障;大多数时候, 集线器或路由器的指示灯也能够提示其是否有故障, 在正常情况下对应端口的灯应是绿灯。若一直不能正常通信, 则可以认定它是集线器或路由器发生了故障。
对于网卡故障,由于网卡多装在主机内, 要靠主机才能完成配置和通信, 也可以看作网络终端。这类故障一般包括网卡松动, 主机的网卡插槽故障,网卡物理故障和主机本身的故障。对于网卡接触的故障的解决办法就是拔出网卡,将它的金属部分用铁砂纸擦掉其氧化层再插入使用。对由于网卡的松动和主机的网卡插槽有故障这种情况,解决的办法就是更换新的网卡插槽。对网卡物理故障的情况, 如果以上更换插槽的办法也解决不了问题的话,那就要拿到其他正常工作的主机上进行网卡测试,如果仍然是无法工作的话,通常可以认定是网卡物理损坏了,买个新的网卡后换掉就能解决问题了。
至于逻辑类的网络故障,那是由于网络设备配置不正确而导致的网络故障,通常叫做逻辑。路由器逻辑故障一般包括路由器的端口参数设定不正确、路由器的路由配置错误、路由器的CPU利用率过高和路由器内存余量太小等等。路由器有误的端口参数设定就可能会导致找不到远端地址。这时候用Ping命令或者是Traceroute命令查看故障发生在远端地址的哪个环节点,找出问题后先检查再修复该节点的参数。路由器路由配置错误会使路由不断循环,该故障可以用Traceroute工具解决,能够发现在Traceroute的结果中在某一段之后, 两个IP 地址会循环出现。这时,通常就是线路远端把端口路由又指向了线路近端, 导致IP包在该线路上不断反复传递。解决路由循环故障的方法就得重新配置路由器端口的静态路由或者动态路由,把路由设置改为正确的配置,就能恢复线路了。
主机的网络地址参数设置不正确是日常生活中常见的主机逻辑故障问题。例如,主机配置的IP地址和其他的主机发生冲突,或IP地址原本就不在正确网段范围以内,因此,这将会导致该主机不能连通。这个故障的诊断方法就是鼠标右键查看网络邻居属性中的连接属性窗口,查看TCP/IP选项参数设置是否正确,这包括IP地址、网关、子网掩码和DNS参数,特别是要仔细查看有没有重复的IP地址。
对于一些受系统或病毒影响而导致意外关闭的有关网络连接数据参数的重要进程或端口。像意外关闭的路由器的SNMP进程,这时候网络管理系统将从路由器中采集不到任何的数据,因此,网络管理系统失去了对该路由器的控制权,又或者线路一直中断,没有流量无法联网。对于这个故障,我们可以用Ping线路近端的端口看是否能进行Ping通,如果Ping不通,就要检查该端口是否处于down 的状态, 如果是由于该端口被关闭了所以导致的故障,只需要重新启动该端口就可以恢复线路的连通了。
六、结束语
由于计算机网络技术快速的发展,网络故障也越来越复杂,本文就介绍了常见的几类故障及其排查维护的方法。为了能在网络出现故障后快速及时地对网络进行修复和维护,以最快的速度恢复网络的正常健康运行,就有必要建立完整的故障维护文档,以供以后遇到类似的问题时及时查询。养成做网络维护日志的良好习惯并坚持下去,尤其是对那些发生概率低但是一些概率高的故障和危害相当大的故障,对每台电脑都要记录好完整的维护文档有利于以后故障的排查和解决,这也是积累经验的一种很好的方式。还有就是提高网络安全防范意识,提高网络运行的可靠性,并且为主机加装最新的操作系统的补丁程序和防火墙、防黑客等程序而且还要经常更新,防止漏洞的出现。严格的网络管理是减少网络故障的重要手段之一,完善的技术档案在排除网络故障的时候可以作为重要参考,有效的测试工具和监视工具则是预防、解决网络故障的强有力助手,从而做到以不变应万变,轻松地解决掉网络故障问题。
参考文献:
关键词:网络故障诊断;路由器;分层诊断技术;网络接口
中图分类号:TP393文献标识码:A
文章编号:1009-2374 (2010)25-0070-02
0引言
计算机网络是指将地理位置不同的具有独立功能的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统,网络管理软件及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。实现计算机网络有四个基本要素:通信线路和通信设备;有独立功能的计算机;网络软件软件支持;实现数据通信与资源共享。所以网络故障无非就是这四个方面的故障。本文先介绍网络和路由器的基本概念,而后通过介绍网络分层诊断技术来详细阐述排除网络连通性故障的方法。
1网络与路由器概述
网络诊断是一门综合性技术,涉及网络技术的方方面面。为方便下面的讨论,首先回顾一下网络和路由器的基本概念。
(1)计算机网络按其覆盖范围通常被分为局域网和广域网。局域网覆盖地理范围较小,一般在数米到数十公里之间。广域网覆盖地理范围较大。按拓扑分类可分为总线型,星型,环形以及网状网络。
(2)为了完成计算机间的通信,把每部计算机互连的功能划分成定义明确的层次,规定了同层进程通信的协议及相邻层之间的接口和服务,将这些层、同层进程通信的协议及相邻层之间的接口统称为网络体系结构。国际标准化组织(ISO)提出的开放系统互连参考模型(OSI)是当代计算机网络技术体系的核心。该模型将网络划分为7个层次:物理层、数据链路层、网络层、传输层、会话层、表示层和应用层。
(3)Internet依靠TCP/IP协议,在全球范围内实现不同硬件结构、不同操作系统、不同网络系统的互联。在Internet上,每一个节点都依靠唯一的IP地址互相区分和相互联系。IP地址是一个32位二进制数的地址,由4个8位字段组成,每个字段之间用点号隔开,用于标识TCP/IP宿主机。
(4)路由器(Router)是用于连接多个逻辑上分开的网络,所谓逻辑网络是代表一个单独的网络或者一个子网。当数据从一个子网传输到另一个子网时,可通过路由器来完成。因此,路由器具有判断网络地址和选择路径的功能,它能在多网络互联环境中,建立灵活的连接,可用完全不同的数据分组和介质访问方法连接各种子网,路由器只接受源站或其他路由器的信息,属网络层的一种互联设备。路由器技术始终处于核心地位。
2网络故障诊断概述
网络故障诊断有以下三方面的目的:确定网络的故障点,恢复网络的正常运行;找到网络配置和规划中的欠缺之处,改善和优化网络的性能;观察网络的运行状况,及时预测网络通信质量。
网络故障诊断以网络原理、网络配置和网络运行的知识为基础。从故障现象出发,以网络诊断工具为手段获取诊断信息,确定网络故障点,查找问题的根源,排除故障,恢复网络正常运行。
网络诊断可以使用包括局域网或广域网分析仪在内的多种工具:路由器诊断命令;网络管理工具和其它故障诊断工具。CISCO提供的工具足以胜任排除绝大多数网络故障。查看路由表,是解决网络故障开始的好地方。ICMP的ping、trace命令和Cisco的show命令、debug命令是获取故障诊断有用信息的网络工具。
网络故障的故障症状包括一般性和较特殊的。一般故障排除模式如下:第一步,当分析网络故障时,首先要清楚故障现象;第二步,收集需要的可能的故障原因信息,充分了解故障现象;第三步,根据收集到的情况考虑可能的故障原因,然后根据具体故障现象排除不符合的故障原因;第四步,根据最后的可能的故障原因,建立一个诊断计划;第五步,执行诊断计划,认真做好每一步测试和观察,直到故障症状消失;第六步,每改变一个参数都要确认其结果。
3网络故障分层诊断技术
3.1物理层及其诊断
物理层是第一层,它虽然处于最底层,却是整个开放系统的基础。物理层为设备之间的数据通信提供传输媒体及互连设备,为数据传输提供可靠的环境。
物理层的故障主要表现在设备的物理连接方式是否正确;MODEM、CSU/DSU等设备的配置及操作是否正确。可以使用show interface命令来检查路由器各端口物理连接是否正常,检查端口状态,EIA状态和协议建立状态。
3.2数据链路层及其诊断
数据链路层是OSI参考模型的第二层,该层解决两个相邻结点之间的通信问题,实现两个相邻结点链路上无差错的协议数据单元传输。数据链路层传输的协议数据单元称为数据帧。数据链路层不关心数据包中包含什么信息,而仅是将其传递到网络中的下一结点。
3.3网络层及其诊断
网络层提供建立、保持和释放网络层连接的手段,包括路由选择、流量控制、传输确认、中断、差错及故障恢复等。
排除网络层故障的基本方法是:沿着从源到目标的路径,查看路由器路由表,同时检查路由器接口的IP地址。如果路由没有在路由表中出现,应该通过检查来确定是否已经输入适当的静态路由、默认路由或者动态路由。然后手工配置一些丢失的路由,或者排除一些动态路由选择过程的故障,包括RIP或者IGRP路由协议出现的故障。
4路由器接口故障排除
4.1串口故障排除
串口出现连通性问题时,为了排除串口故障,一般是从show interface serial命令开始,分析它的屏幕输出报告内容,找出问题之所在。串口报告的开始提供了该接口状态和线路协议状态。接口和线路协议的可能组合有以下几种:串口运行、线路协议运行,这是完全的工作条件。该串口和线路协议已经初始化,并正在交换协议的存活信息;串口运行、线路协议关闭,这个显示说明路由器与提供载波检测信号的设备连接,表明载波信号出现在本地和远程的调制解调器之间,但没有正确交换连接两端的协议存活信息;串口和线路协议都关闭,可能是电信部门的线路故障、电缆故障或者是调制解调器故障;串口管理性关闭和线路协议关闭,这种情况是在接口配置中输入了shutdown命令。通过输入no shutdown命令,打开管理性关闭。
正常通信时接口输入或输出信息包不应该丢失,或者丢失的量非常小,而且不会增加。如果信息包丢失有规律性增加,表明通过该接口传输的通信量超过接口所能处理的通信量。解决的办法是增加线路容量。
4.2以太接口故障排除
以太接口的典型故障问题是:带宽的过分利用;碰撞冲突次数频繁;使用不兼容的类型。使用show interface ethernet命令可以查看该接口的吞吐量、碰H冲突、信息包丢失、和类型的有关内容等。
(1)通过查看接口的吞吐量可以检测网络的利用。如果网络广播信息包的百分比很高,网络性能开始下降。光纤网转换到以太网段的信息包可能会淹没以太口。互联网发生这种情况可以采用优化接口的措施,即在以太接口使用no ip route-cache命令,禁用快速转换,并且调整缓冲区和保持队列。
(2)两个接口试图同时传输信息包到以太电缆上时,将发生碰H。以太网要求冲突次数很少,不同的网络要求是不同的,一般情况发现冲突每秒有三五次就应该查找冲突的原因了。
(3)如果节点的物理连接正常,接口和线路协议报告运行状态也正常,可是还是不能通信。原因可能是两个节点使用了不兼容的帧类型。可以尝试重新配置使用相同帧类型。
4.3异步通信口故障排除
互联网络的运行中,异步通信口的任务是为用户提供可靠服务,但又是故障多发部位。
异步通信口故障一般的外部因素是:拨号链路性能低劣;电话网交换机的连接质量问题;调制解调器的设置。如果调制解调器丢失了它的设置,应采用一种方法来初始化远程调制解调器。简单的办法是使用可通过前面板配置的调制解调器,另一种方法是将调制解调器接到路由器的异步接口,建立反向telnet,发送设置命令配置调制解调器。
show interface async 命令、show line命令是诊断异步通信口故障使用最多的工具。show interface async 命令输出报告中,接口状态报告关闭的唯一的情况是接口没有设置封装类型。线路协议状态显示与串口线路协议显示相同。show line命令显示接口接收和传输速度设置以及EIA状态显示。show line命令可以认为是接口命令(show interface async)的扩展。show line命令输出的EIA信号及网络状态:
noCTS noDSR DTR RTS:调制解调器未与异步接口连接。
CTS noDSR DTR RTS:调制解调器与异步接口连接正常,但未连接远程调制解调器。
CTS DSR DTR RTS:远程调制解调器拨号进入并建立连接。
确定异步通信口故障一般可用下列步骤:检查电缆线路质量;检查调制解调器的参数设置;检查调制解调器的连接速度;检查rxspeed 和txspeed是否与调制解调器的配置匹配;通过show interface async 命令和 show line命令查看端口的通信状况;从show line命令的报告检查EIA状态显示;检查接口封装;检查信息包丢失及缓冲区丢失情况。
5结语
网络发生故障是不可避免的。网络建成运行后,网络故障诊断是网络管理的重要技术工作。搞好网络的运行管理和故障诊断工作,提高故障诊断水平需要注意以下几方面的问题:认真学习有关网络技术理论;清楚网络的结构设计,包括网络拓朴、设备连接、系统参数设置及软件使用;了解网络正常运行状况、注意收集网络正常运行时的各种状态和报告输出参数;熟悉常用的诊断工具,准确的描述故障现象。
参考文献
[1] 李江,戴金萍,彭婷.浅谈医院网络常见故障的分类诊断[J].中国管理信息化,2010,(7).
[2] 庄保新.网络中的常见故障诊断及分析[J].硅谷,2010,(8).
[3] 代树强.计算机网络日常维护方略[J].硅谷,2010,(1).