您好,欢迎来到爱go旅游网。
搜索
您的当前位置:首页基于事件关联的根本原因分析系统的设计与实现

基于事件关联的根本原因分析系统的设计与实现

来源:爱go旅游网
维普资讯 http://www.cqvip.com 第24卷第9期 计算机应用研究 Vo1.24 No.9 2007年9月 Application Research of Computers Sept.2007 基于事件关联的根本原因分析系统的设计与实现 向杨蕊,胡宁,王宝生,周小勇 (国防科学技术大学计算机学院,长沙410073) 摘要:在对事件关联等技术研究的基础上,设计并实现根本原因分析系统,并对该系统的性能进行测试。结 果表明该系统能够在很大范围内减少告警事件数目,满足网络故障管理的需要。 关键词:网络故障;根本原因分析;事件关联 中图分类号:TP393.07 文献标志码:A 文章编号:1001.3695(2007)09.0238.03 Design and realization of root cause analysis system based on event correlation XIANG Yang—rui,HU Ning,WANG Bao—sheng,ZHONG Xiao—yong (School 0厂Computer Scie ̄e,National University ofD咖 e Technology,Changsha 410073,China) Abstract:The article researched the related technology of RCA,such as event correlation,then gave the design and realiza— tion of RCA system.After that,tested the RCA system.Result indicates that the system reduces the alarm in large amount and iS much suitable for the network fault manaement. Key words:network fault;root cause analysis(RCA);event correlation 大型网络经常出现大量的故障状况或异常。如果网络中 本原因分析的知识 J。因此,外延推理的问题依赖于用户。 产生一个故障,则在网管工作站中出现多个告警事件,通常导 另外还有些系统通过基于事例的推理 或者代码书 的方法 致数以万计的告警产生…。例如网络中某一路由器出现了故 进行外延推理。 ・ 障,那么在网管工作站中,不但出现该路由器的告警,而且所有 1.2事件关联 与该路由器相连的设备均会产生告警。所以对收集到的告警 事件关联是对多个事件的一种解释。一方面通过去除冗 信息进行根本原因分析 非常重要。目前的根本原因分析的 余减少了事件数量;另一方面增强了事件内所含的语义信息。 基本思路是通过事件过滤机制或者简单地将大量事件重定向 事件关联可以看成是一种数据简约及由事件推理与识别故障 到打印机或数据库来减少事件数目。事件关联 则是故障管 理的新兴领域,它通过对事件在时间和空间上进行相关处理, 的技术。事件关联技术到目前为止已经得到了巨大的发展,国 在减少事件数目的同时,增强事件的语义,有助于发现引起故 内外的研究机构已先后提出多种事件关联技术。这些事件关 联技术涉及了计算机科学的不同研究领域,包括人工智能、自 障的真正原因。 动控制论、神经网络、信息论以及图论。下面介绍在RCA系统 1事件关联技术 中使用的两种事件关联的方法: 1.2.1 基于规则的推理 1.1 根本原因与根本原因分析 基于规则的推理(RBR)也称为基于规则的专家系统,是 根本原因(root cause)是影响网络正常工作并触发告警的 最早出现的一种事件关联技术,也是现在用得比较多的一种事 原因,如路由器软件出现问题、接收缓存不足,则在MIB中if- 件关联技术。基于规则的推理把领域知识以规则集的形式表 InDiscards信息将超过阈值,触发“丢弃输入报文”事件。根本 示,再将网络当前状态与规则的条件部分进行比较,以确定是 原因分析是识别故障的根本原因以及这些原因影响到的网元, 否采用该规则。规则推理问题求解过程符合人的认知过程,容 它可以简单地定义为解释一系列症状和事件并且查明引起这 易实现,有利于问题求解和专家系统的开发。然而基于规则的 些症状和事件的原因。 推理存在很多不足。只依靠专家的经验获得规则,使得基于规 识别根本原因是外延推理 常见的问题。外延推理是 则推理存在一定的局限性。为此引入了数据挖掘技术。数据 从结果推论原因的过程(如告警)。许多网络管理系统的外延 挖掘根据某种关联规则算法,自动找出隐藏在大量事件中的规 推理过程分为两个步骤:首先,它们在网络中建立原因一结果 律性,形成关联规则。 传播模型;然后为不确定的根本原因研究模型来解释观察到的 1.2.2基于事例的推理 告警 J。有些系统需要用户在专家系统规则中提取出有关根 基于事例的推理(CBa)是通过过去求解类似问题的经验 收稿日期:2006.07—27;修返日期:2006—09-22 基金项目:国家自然科学基金资助项目(90204005);国家“863”计划资助项目 (20o3AA121510) ● 作者简介:向杨蕊(1980一),女,黑龙江伊春人,硕士研究生,主要研究方向为计算机网络管理、计算机软件(xiangyangrui@yahoo,corn,ca);胡宁 (1972一),男,博士研究生,主要研究方向为计算机网络管理、网络协议软件;王宝生(1970一),男,硕导,主要研究方向为网络体系结构、网络计算、 IPv6技术、路由器技术;周小勇(1982一)男,湖南永州人,硕士研究生,主要研究方向为计算机网络管理、程序设计, 维普资讯 http://www.cqvip.com

第9期 向杨蕊,等:基于事件关联的根本原因分析系统的设计与实现 ・239・ 和知识获得当前问题结果的一种推理模式。在基于事例的系 统中,知识的基本单元是事例而不是规则。很多过去发生的事 例被存储、检索,并用来解决新问题。由解决新问题的经验构 成新的事例;系统将新的事例加入到数据库中,为将来使用作 好准备。这样系统可以通过自己的方法来获取知识而不必从 于网络拥塞或其他临时条件而产生的数据丢失。RCA在关联 过程之前应用事件过滤技术进行事件确认,完成临时告警以及 其他冗余告警的消除。 事件确认的过程:a)当事件检测模块将发现的事件输入 RCA系统后,首先应用忽略规则,检测是否存在用户定义的特 定上下文环境C,如果存在则将该事件忽略。b)如果不存在则 应用事件压缩规则查看临时事件数据库中是否在某一时间间 隔中存在同样事件。如果存在,则将该事件与以前发生的事件 进行合并,并且刷新关联数据库;如果不存在则存人临时数据 库。c)在应用过滤规则中,主要是定期检查临时数据库中事 通信专家那里获取知识。基于事例推理的另外一个特点是可 以根据出现的错误自动改正将来的行为,而且基于事例推理可 以通过调整过去的事例来构建新的方法,以自适应的方式面对 和处理新的问题。可见,基于事例的推理在一定程度上克服了 基于规则的推理的不足: a)在基于规则的推理中,知识单元是规则,规则必须在原 件发生的时间属性,如果事件发生的时间小于预设的阈值则认 理上解释所有问题类型,因此它的获取过程费力,而且不一定 有效。在基于事例的推理中,知识的单元是事例,是从完整的 特殊事例中推理而来,无须将经验分解开来,也不需要使用其 中的某些部分产生规则,知识获取比较容易。 b)在基于规则的推理中,检索是基于对规则的完全匹配。 如果当前网络的状态与规则的前件不匹配,系统将退出整个推 理过程。在基于事例的推理中,检索是基于对事例的部分匹 配,还可以通过修改添加新的事例。 c)在基于规则的推理中,规则的维护、修改必须要将以前 的规则删除,重新得到一个新规则。基于事例的推理进行知识 维护,只需要用户将新的事例加入事例库,比较容易实现。 d)基于规则的推理适用于网络规模不大而且微小事件的 重复出现;基于事例的推理适用于大规模网络中的复杂问题的 整体解决。 2系统总体设计 2.1 总体结构 实现自动故障管理不仅简单地包括快速获得网络事件和 正确关联到它的根本原因,也需要对事件丰富的响应,根据分 析的结果进行通告。RCA系统由三个阶段实现,包括事件确 认、事件关联、事件通告。在事件确认阶段,RCA系统消灭了 临时的网络故障,同时过滤了冗余事件。在关联阶段,RCA系 统定位了网络故障的根本原因。在事件通告阶段,RCA系统 不但向管理员通报特定的设备或接口故障,同时也根据事先设 定的排错流程给出排错方案,如图1所示。 专家经验i 数据 嚣 r——一F= 二 挖掘F=二二== 测试 皇 箜 jl事件确认  【  l壁 ——_] 皇塑塑壁 RBR推理 否得出根本原因? CBR推理 五: ]. 壁壁 塞 l 排错流程 图1网络故障RCA系统结构 2.2事件确认阶段 对于有效的网络故障管理来说,发现问题的根本原因是必 要的。消灭临时网络告警的能力是正确分析根本原因的主要 因素。临时网络失效通常是网络正常操作的一部分。例如,由 为可能是临时事件,将该事件从临时数据库中删除。存人事件 关联数据库中的事件即为通过事件确认的事件。 2.3事件关联阶段 当网络设备故障通过确认阶段鉴别之后,RCA主要通过 关联引擎执行根本原因分析来得出故障的确切原因。关联引 擎的输入来自两方面:经过事件确认存储在关联数据库中的事 件和存储在知识库中的知识,其输出端输出故障假设。测试模 块则对故障假设实施测试,验证假设。关联引擎工作原理如图 2所示 图2事件关联引擎工作原理 1)关联数据库经过事件确认的事件数据按照一定的格 式统一保存在关联数据库中,等待关联引擎进行事件关联。 2)知识库知识主要由规则库和事例库组成。规则库是 一些故障精练的描述,它是按一定的语法格式书写的,并在相 应的模块内存储一张规则表。在规则库中,对规则的描述包括 规则的序号、前提、结论和规则本身的可信度。事例库提供支 持问题求解的一组案例,它是系统过去进行问题求解经验的聚 集。事例库应用一定的事例表示方法,构造数据结构,存储事 例的类别、特征、属性、方法、解答以及一般知识或领域知识等 信息。 3)事件关联引擎支持基于规则的推理和基于事例的推 理,关联引擎提供数据库的检索、比较、修改、添加、删除等功 能。首先,关联数据库中的事件所表达的当前网络的状态与规 则库中规则的条件部分进行比较,以决定该规则是否被采用。 当条件满足时,输出规则的后项。在最简单的情况下,一条规 则就可以判断网络故障的根源。实际上这种情况十分少见,多 数时候关联引擎需要将当前得到的结论再作为条件在规则库 中进行多次推理,最终得出故障假设。 如果应用基于规则的推理未得出结论,则进一步应用基于 事例的推理。根据问题描述,关联引擎的事例检索机制从事例 库中查找一个与当前问题相匹配的事例。如果该事例满足问 题描述的要求,则输出相应的结果;否则根据问题描述,对检索 出的事例进行修改,事例改写的结果形成一个满足全部问题描 述要求的答案。该结果同时作为一个新的事例经索引机制组 维普资讯 http://www.cqvip.com ・240・ 计算机应用研究 第24卷 织添加到事例库中以备将来使用。 基于规则的推理和基于事例的推理是常用的事件关联技 应用事件关联技术对事件的根本原因进行分析,及时准确地向 网络管理员进行通告,给出排错方案,极大地减轻了网络管理 术,在满足关联引擎需求的同时,具有容易实现的优点。 员的工作负担,为故障的排除奠定了基础。下一步需要做的工 2.4通告阶段 作就是进一步改进基于规则的推理和基于事例的推理算法,增 只向网络管理员通告事件关联的结果是不够的。由于计 强关联引擎的功能,更准确、快速地定位网络故障的根源。 算机本身并不知道怎样排除错误,为了减轻管理员的负担,在 表2分析前和分析后每分钟平均事件数 通告阶段首先建立排错流程库,管理人员事先设定排错条件和 排错步骤。系统根据根本原因分析的结果查询排错条件并按 照管理经验设定规则给出排错方案;同时告警的级别和告警的 方式可以根据实际的需要进行设定,尽量及时准确地向管理员 进行通告,以减轻网络故障所带来的损失。 3实验及运行结果 参考文献: RCA系统用于大型数据库集群系统的故障管理。所管理 [1] BHATIIAcHARYA K,RANI N U,GONSALVES T A.Efficient al— 的数据库集群系统由4个Force10 E600高性能交换机将10个 gorithm for root cause analysis[C]//Proc of the llth National Com— munications Conference.20D5:447—451. Cluster连接起来,每个Cluster包含了6个计算节点,18个磁盘 [2]FINKEL A,HOUCK K,CALO S,et aL An alarm correlation system 控制器和1个磁带库;Cluster内部通过私有网络连接。系统还 ofr heterogeneous networks[J].Network Management and Con- 提供了一套备份网络,因此需要管理的接口总数达500个。实 troI,1994,2:226—237. 验通过收集事件,并且将事件输入RCA系统,对比分析前与分 [3]GARDENER R,HARLE D A.Methods and systems ofr laarm com 析后的事件数测试系统的性能。表1、2分别显示分析前和分 lation[C].Proc ofGlobecom’96.London:[s.n.],1996:136—134. 析后的事件数与每分钟平均事件数。 [4]OHSIE D A.Modeled abductive inference for event management nad 表1分析前秘分析后事{年数 correlation[D].[s.1J]:Columbia University。1998. [5]PENG Y,REGGIA J A.A probabilistic causal model for diagnostic problem solving--part I:diagnostic strategy[J].IEEE Transactions on Syst,Man and Cybern,1987,17(2):395—404. [6]BOULOUTAS A,CALO S,FINKEL A.Alarm correlation and fault identiifcation in communication networks[J].IEEE Transactions on Communications,1994,42(2/4):523—533. [7]JAKOBSON G,WEISSMAN M D.Alarm correlation[J].IEEE Net- 实验结果表明,通过对网络中的事件进行根本原因分析, work,1993,7(11):52—59. 平均减少告警13志中90%的数据。 [8] LE 口s L M.Managing computer networks:a case-based reasoning ap— proach[M].Nor wood:Artech House,1995. 4结束语 [9]YEMINI S,KLIGER S,MOZES E,et aL High speed&robust event correlation[J].IEEE Communications Magazine,1996,34(5): 网络故障RCA系统能够消除临时告警和冗余事件,并且 82—90. (上接第211页) n.J,2003:765—775. [5]PARK J M,BAE E H,PYEON H J,et a1.A ticket—based AAA se— 『l1]BUAUN T,KIM H.Efficient anthentication and authofization of mo- curity mechanism in mobile IP network『C]//Proc of ICCSA’03. bile users based on peer—to—peer network mechanisms[C]//IEEE Heidelberg:Springer,2003:210—219, HICSS’05.[S.1.]:IEEE Computer Society,2005:306, [6]皿ON H,CHOO H,OH J H.Identification key based AAA mecha— [I2]SHIN M,MA J,ARBAUGH W A.The desing of efifcient intemet— nism in mobile IP networks[C]//Proc of ICCSA’05.2005:765— work authentication for ubiquitous wireless communication[EB/OL]. 775. (2006].http://hd1.handle.net/1903/3038/1/interauth.pdf. [7]JEON H,CHUNG M Y,CHOO H.On AAA with extended IDK in [13]ZHEN Zhen,SAMPALLI S.AAA architecture for mobile IP in over- mobile IP networks[C]//Proc of ICCSA’05.Germany:Springer— lay networks[C]//iEEE LCN’05.Washington,DC:IEEE Computer Verlag,2005:529—539. Society.2005:772—775. [8]LIANG W,WANG W.A local authentication control scheme based [14]LIANG Wei,WANG Wen—ye.A cost.aware control scheme for efif— on AAA architecture in wireless networks[C]//IEEE VTC’04.[S. cient authentication in wireless networks[C]//IEEE PIMRC’04.fs. 1,]:IEEE,2004:5276—5280. 1.]:IEEE,2004:1548—1552. f9]K/M H,AFIFI H.Improving mobile authentication with new AAA [15]徐鹏,廖建新,朱晓民,等.移动IP与SIP集成应用中优化的AAA protcools[C]//IEEE ICC’03,[S.1.]:IEEE,2003:497—501. 过程[J].通信学报,2006,27(1):1—7. [IO]KIM H,AMEUR W B,AFIFI H.Toward eficient mobile Authenti. [16]刘雅静,郭巧.DIAMETER移动IPv6应用扩展方案[J】.计算机工 cation in wireless inter-domainfC]//IEEE ASWN’03.Bedin:[s. 程与应用,2005,41(3O):149-152. 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- igat.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务