第9期 向杨蕊,等:基于事件关联的根本原因分析系统的设计与实现 ・239・ 和知识获得当前问题结果的一种推理模式。在基于事例的系 统中,知识的基本单元是事例而不是规则。很多过去发生的事 例被存储、检索,并用来解决新问题。由解决新问题的经验构 成新的事例;系统将新的事例加入到数据库中,为将来使用作 好准备。这样系统可以通过自己的方法来获取知识而不必从 于网络拥塞或其他临时条件而产生的数据丢失。RCA在关联 过程之前应用事件过滤技术进行事件确认,完成临时告警以及 其他冗余告警的消除。 事件确认的过程:a)当事件检测模块将发现的事件输入 RCA系统后,首先应用忽略规则,检测是否存在用户定义的特 定上下文环境C,如果存在则将该事件忽略。b)如果不存在则 应用事件压缩规则查看临时事件数据库中是否在某一时间间 隔中存在同样事件。如果存在,则将该事件与以前发生的事件 进行合并,并且刷新关联数据库;如果不存在则存人临时数据 库。c)在应用过滤规则中,主要是定期检查临时数据库中事 通信专家那里获取知识。基于事例推理的另外一个特点是可 以根据出现的错误自动改正将来的行为,而且基于事例推理可 以通过调整过去的事例来构建新的方法,以自适应的方式面对 和处理新的问题。可见,基于事例的推理在一定程度上克服了 基于规则的推理的不足: a)在基于规则的推理中,知识单元是规则,规则必须在原 件发生的时间属性,如果事件发生的时间小于预设的阈值则认 理上解释所有问题类型,因此它的获取过程费力,而且不一定 有效。在基于事例的推理中,知识的单元是事例,是从完整的 特殊事例中推理而来,无须将经验分解开来,也不需要使用其 中的某些部分产生规则,知识获取比较容易。 b)在基于规则的推理中,检索是基于对规则的完全匹配。 如果当前网络的状态与规则的前件不匹配,系统将退出整个推 理过程。在基于事例的推理中,检索是基于对事例的部分匹 配,还可以通过修改添加新的事例。 c)在基于规则的推理中,规则的维护、修改必须要将以前 的规则删除,重新得到一个新规则。基于事例的推理进行知识 维护,只需要用户将新的事例加入事例库,比较容易实现。 d)基于规则的推理适用于网络规模不大而且微小事件的 重复出现;基于事例的推理适用于大规模网络中的复杂问题的 整体解决。 2系统总体设计 2.1 总体结构 实现自动故障管理不仅简单地包括快速获得网络事件和 正确关联到它的根本原因,也需要对事件丰富的响应,根据分 析的结果进行通告。RCA系统由三个阶段实现,包括事件确 认、事件关联、事件通告。在事件确认阶段,RCA系统消灭了 临时的网络故障,同时过滤了冗余事件。在关联阶段,RCA系 统定位了网络故障的根本原因。在事件通告阶段,RCA系统 不但向管理员通报特定的设备或接口故障,同时也根据事先设 定的排错流程给出排错方案,如图1所示。 专家经验i 数据 嚣 r——一F= 二 挖掘F=二二== 测试 皇 箜 jl事件确认 【 l壁 ——_] 皇塑塑壁 RBR推理 否得出根本原因? CBR推理 五: ]. 壁壁 塞 l 排错流程 图1网络故障RCA系统结构 2.2事件确认阶段 对于有效的网络故障管理来说,发现问题的根本原因是必 要的。消灭临时网络告警的能力是正确分析根本原因的主要 因素。临时网络失效通常是网络正常操作的一部分。例如,由 为可能是临时事件,将该事件从临时数据库中删除。存人事件 关联数据库中的事件即为通过事件确认的事件。 2.3事件关联阶段 当网络设备故障通过确认阶段鉴别之后,RCA主要通过 关联引擎执行根本原因分析来得出故障的确切原因。关联引 擎的输入来自两方面:经过事件确认存储在关联数据库中的事 件和存储在知识库中的知识,其输出端输出故障假设。测试模 块则对故障假设实施测试,验证假设。关联引擎工作原理如图 2所示 图2事件关联引擎工作原理 1)关联数据库经过事件确认的事件数据按照一定的格 式统一保存在关联数据库中,等待关联引擎进行事件关联。 2)知识库知识主要由规则库和事例库组成。规则库是 一些故障精练的描述,它是按一定的语法格式书写的,并在相 应的模块内存储一张规则表。在规则库中,对规则的描述包括 规则的序号、前提、结论和规则本身的可信度。事例库提供支 持问题求解的一组案例,它是系统过去进行问题求解经验的聚 集。事例库应用一定的事例表示方法,构造数据结构,存储事 例的类别、特征、属性、方法、解答以及一般知识或领域知识等 信息。 3)事件关联引擎支持基于规则的推理和基于事例的推 理,关联引擎提供数据库的检索、比较、修改、添加、删除等功 能。首先,关联数据库中的事件所表达的当前网络的状态与规 则库中规则的条件部分进行比较,以决定该规则是否被采用。 当条件满足时,输出规则的后项。在最简单的情况下,一条规 则就可以判断网络故障的根源。实际上这种情况十分少见,多 数时候关联引擎需要将当前得到的结论再作为条件在规则库 中进行多次推理,最终得出故障假设。 如果应用基于规则的推理未得出结论,则进一步应用基于 事例的推理。根据问题描述,关联引擎的事例检索机制从事例 库中查找一个与当前问题相匹配的事例。如果该事例满足问 题描述的要求,则输出相应的结果;否则根据问题描述,对检索 出的事例进行修改,事例改写的结果形成一个满足全部问题描 述要求的答案。该结果同时作为一个新的事例经索引机制组 维普资讯 http://www.cqvip.com ・240・ 计算机应用研究 第24卷 织添加到事例库中以备将来使用。 基于规则的推理和基于事例的推理是常用的事件关联技 应用事件关联技术对事件的根本原因进行分析,及时准确地向 网络管理员进行通告,给出排错方案,极大地减轻了网络管理 术,在满足关联引擎需求的同时,具有容易实现的优点。 员的工作负担,为故障的排除奠定了基础。下一步需要做的工 2.4通告阶段 作就是进一步改进基于规则的推理和基于事例的推理算法,增 只向网络管理员通告事件关联的结果是不够的。由于计 强关联引擎的功能,更准确、快速地定位网络故障的根源。 算机本身并不知道怎样排除错误,为了减轻管理员的负担,在 表2分析前和分析后每分钟平均事件数 通告阶段首先建立排错流程库,管理人员事先设定排错条件和 排错步骤。系统根据根本原因分析的结果查询排错条件并按 照管理经验设定规则给出排错方案;同时告警的级别和告警的 方式可以根据实际的需要进行设定,尽量及时准确地向管理员 进行通告,以减轻网络故障所带来的损失。 3实验及运行结果 参考文献: RCA系统用于大型数据库集群系统的故障管理。所管理 [1] BHATIIAcHARYA K,RANI N U,GONSALVES T A.Efficient al— 的数据库集群系统由4个Force10 E600高性能交换机将10个 gorithm for root cause analysis[C]//Proc of the llth National Com— munications Conference.20D5:447—451. Cluster连接起来,每个Cluster包含了6个计算节点,18个磁盘 [2]FINKEL A,HOUCK K,CALO S,et aL An alarm correlation system 控制器和1个磁带库;Cluster内部通过私有网络连接。系统还 ofr heterogeneous networks[J].Network Management and Con- 提供了一套备份网络,因此需要管理的接口总数达500个。实 troI,1994,2:226—237. 验通过收集事件,并且将事件输入RCA系统,对比分析前与分 [3]GARDENER R,HARLE D A.Methods and systems ofr laarm com 析后的事件数测试系统的性能。表1、2分别显示分析前和分 lation[C].Proc ofGlobecom’96.London:[s.n.],1996:136—134. 析后的事件数与每分钟平均事件数。 [4]OHSIE D A.Modeled abductive inference for event management nad 表1分析前秘分析后事{年数 correlation[D].[s.1J]:Columbia University。1998. [5]PENG Y,REGGIA J A.A probabilistic causal model for diagnostic problem solving--part I:diagnostic strategy[J].IEEE Transactions on Syst,Man and Cybern,1987,17(2):395—404. [6]BOULOUTAS A,CALO S,FINKEL A.Alarm correlation and fault identiifcation in communication networks[J].IEEE Transactions on Communications,1994,42(2/4):523—533. [7]JAKOBSON G,WEISSMAN M D.Alarm correlation[J].IEEE Net- 实验结果表明,通过对网络中的事件进行根本原因分析, work,1993,7(11):52—59. 平均减少告警13志中90%的数据。 [8] LE 口s L M.Managing computer networks:a case-based reasoning ap— proach[M].Nor wood:Artech House,1995. 4结束语 [9]YEMINI S,KLIGER S,MOZES E,et aL High speed&robust event correlation[J].IEEE Communications Magazine,1996,34(5): 网络故障RCA系统能够消除临时告警和冗余事件,并且 82—90. (上接第211页) n.J,2003:765—775. [5]PARK J M,BAE E H,PYEON H J,et a1.A ticket—based AAA se— 『l1]BUAUN T,KIM H.Efficient anthentication and authofization of mo- curity mechanism in mobile IP network『C]//Proc of ICCSA’03. bile users based on peer—to—peer network mechanisms[C]//IEEE Heidelberg:Springer,2003:210—219, HICSS’05.[S.1.]:IEEE Computer Society,2005:306, [6]皿ON H,CHOO H,OH J H.Identification key based AAA mecha— [I2]SHIN M,MA J,ARBAUGH W A.The desing of efifcient intemet— nism in mobile IP networks[C]//Proc of ICCSA’05.2005:765— work authentication for ubiquitous wireless communication[EB/OL]. 775. (2006].http://hd1.handle.net/1903/3038/1/interauth.pdf. [7]JEON H,CHUNG M Y,CHOO H.On AAA with extended IDK in [13]ZHEN Zhen,SAMPALLI S.AAA architecture for mobile IP in over- mobile IP networks[C]//Proc of ICCSA’05.Germany:Springer— lay networks[C]//iEEE LCN’05.Washington,DC:IEEE Computer Verlag,2005:529—539. Society.2005:772—775. [8]LIANG W,WANG W.A local authentication control scheme based [14]LIANG Wei,WANG Wen—ye.A cost.aware control scheme for efif— on AAA architecture in wireless networks[C]//IEEE VTC’04.[S. cient authentication in wireless networks[C]//IEEE PIMRC’04.fs. 1,]:IEEE,2004:5276—5280. 1.]:IEEE,2004:1548—1552. f9]K/M H,AFIFI H.Improving mobile authentication with new AAA [15]徐鹏,廖建新,朱晓民,等.移动IP与SIP集成应用中优化的AAA protcools[C]//IEEE ICC’03,[S.1.]:IEEE,2003:497—501. 过程[J].通信学报,2006,27(1):1—7. [IO]KIM H,AMEUR W B,AFIFI H.Toward eficient mobile Authenti. [16]刘雅静,郭巧.DIAMETER移动IPv6应用扩展方案[J】.计算机工 cation in wireless inter-domainfC]//IEEE ASWN’03.Bedin:[s. 程与应用,2005,41(3O):149-152.
因篇幅问题不能全部显示,请点此查看更多更全内容