您好,欢迎来到爱go旅游网。
搜索
您的当前位置:首页关联规则隐藏算法的研究

关联规则隐藏算法的研究

来源:爱go旅游网
维普资讯 http://www.cqvip.com

・28・ 计算机应用研究 2006年 关联规则隐藏算法的研究 丁小刚,黄伟伟,柏文阳 (南京大学计算机科学与技术系计算机软件新技术国家重点实验室,江苏南京210093) 摘要:数据挖掘能从不同角度、不同抽象层上看待数据,这将潜在地影响数据的私有性和安全性。着重介绍 了关联规则数据挖掘中的规则隐藏算法,提出了一个改进的关联规则隐藏算法OSA,该算法综合采用项的添加 和约束方法来降低关联规则的支持度和置信度,从而达到规则隐藏的目的。 关键词:数据挖掘;关联规则挖掘;频繁项集;敏感规则隐藏 中图法分类号:TP301.6 文献标识码:A 文章编号:1001—3695(2006)06-0028-03 Research of Association Rule Hiding Algorithm DING Xiao-gang,HUANG Wei-wei,BAI Wen-yang (State研LabortaoryforNovel So ̄are Technology,Dept.ofComputer Science&Technology, ̄njing University,Na彬ng Jiangsu 210093,China) Abstract:Data mining may pose a threat to privacy and data security sinee from non—sensitive data one is able to infer sensi— tive information.including personal information.facts or even patterns that are not supposed to be disclosed.With the increa- sing popular use of the World Wide Web and recent advances in data mining techniques and machine learning,there has been much interest recently on privacy preservation in data mining and issues related to data mining and security have been recog- nized and investigated.This paper first introduces the development of the privacy preservation and the principle of association rule and its realization by general algorithms,then proposes some improvements of the algorithm.Some experiments show these improvements proposed in this paper can realize the association rule hiding algorithm efifciently and quickly. Key words:Data Mining;Association Rule Mining;Frequent hemset;Sensitive Rule Hiding 过释放数据样本来控制对数据的访问。随后Atallah等人 提 1 引言 出了重要规则、敏感规则、数据清理等概念,他们认为问题的解 数据挖掘能从数据库的大量数据中揭示出隐含的、先前未 决町以通过降低给定规则或规则集的重要性来实现,同时尽可 知的、潜在有用的信息,这些信息可以用来检测异常模式、恐怖 能地不对其他规则的熏要性造成影响。最近两年来,围绕规则 活动和欺诈行为,但同时也可能成为个人隐私和公民自由的威 的隐藏有了更深入的探讨和研究 J,大部分算法的主要思想 胁。近年来,随着数据挖掘技术和相关应用的发展,数据挖掘 就是通过对事务项集的修改使给定关联规则的支持度和置信 所带来的对隐私或数据安全的威胁引起人们越来越多的重 度低于事先给定的阈值,从而使给定的关联规则得到隐藏。其 视…,许多研究人员开始对挖掘中触犯隐私的问题进行了研 解决策略可以归纳为两种(图1):数据共享的策略和模板共亭 究,特别是对于关联规则挖掘的隐私保护方面已经相继提出了 的策略。第一种策略主要足对数据进行移出操作或对一些包 许多解决的策略和方法 。目前对这方面问题解决的主要 含敏感知识的敏感关联规则集进行隐藏,通过删除或添加事务 思想就是采用数据(规则)清理算法,通过对事务中数据项的 中的项来修改部分包含敏感规则集的事务。后一种策略主要 改变(添加或移出)使关联规则的置信度和支持度降低,从而 是对所挖掘到的规则集而不是原始数据本身进行修改,相关的 使事务的关联规则得到隐藏。但数据清理策略对原数据库有 研究有Oliveira等人提出的DSA算法 ,算法在数据共享前对 相当的影响,即在实现隐私和数据安全保护的同时也容易导致 所有敏感规则集进行了隐藏。 规则丢失和规则新生的问题。本文对近年来关联规则隐藏技 数据共享隐藏策略又可分为以下类别:基于项的约束、基 术的发展进行了归纳和总结,并提出了…种新的关联规则隐藏 于项的添加和基于项的模糊。基于项的约束目前有IGA算 算法OSA,从总体上降低了隐藏算法对关联规则挖掘结果的影 法 和SWA算法 ,这些算法通过从一组包含敏感规则集的 响。 事务集中移出部分项集,从而使敏感规则集的支持度或置信度 2相关工作和研究 低于安全闽值的要求;同时算法中还有一个可由数据库用户本 身控制的开放闽值参数 ,用来表示用户对敏感度的具体要 对于数据挖掘所引起的安全问题,Clifton和Marks 最早 求。当 =O%时,所有敏感规则都必须隐藏;当 ;100%时. 分析了一些可能的解决策略,包括对数据库模糊或增强以及通 所有的规则都可认为不是敏感的。基于项的添加 是通过对 事务添加一些别的项造成事务数据库已有信息的修改,这种策 收稿日期:2005-05-21;修返日期:2005.07.09 略容易造成规则的新生。基于项的模糊 。。就是对一些包含敏 基金项目:国家“863”计划资助项目(2002AA141091.) 感规则的事务中的项作未知标记而不是删除,这样一些已知项 维普资讯 http://www.cqvip.com

第6期 。T/J' ̄lJI等:关联规则隐藏算法的研究 ・29- 值就变成未知的,相应降低了规则的支持度和置信度,从而减 束的方法,降低规则新生和规则丢失的数量;OSA算法对数据 少了敏感规则的泄漏。 项的处理顺序和数据库的扫描算法进行了优化,提高了算法的 3关联规则隐藏算法 执行效率;在算法中引进了敏感规则的控制参数 ,在隐私和 公开的程度方面控制更为灵活。OSA算法的主要执行步骤如 关联规则是Rakesh Agrawal等人 提出的数据挖掘领域 下: 中的一个重要课题。设,={i.,i 。…,i }是m个不同项的集 (1)根据需隐藏的所有规则集只 找出对应的事务集 , 合,任务相关的数据集D是数据库事务的集合,其中每个事务 不需要修改的事务直接放人D 中。 是项的集合,且 ,。每一个事务有一个标识符,称作TID。 (2)对于R 中的每 规则r,随机取一事务t e TH进行判 设A是一个项集,事务 包含A当且仅当A T。关联规则是 断。若t= 则执行添加操作;若t:Tr则执行约束操作。 形如 日的蕴涵式,其中A c,,日c,,并且A nB= ,A称作 (3)每次将修改完的事务放人D 中。 规则的前提,日是规则的结果。一般把一些项的集合称作项集 (4)循环操作,直到规则的置信度满足条件或者Numb (Itemset)。规则 日在事务集D中成立的条件是: =I TH l×(1一 )。 (1)它具有支持度 ,其中 是D中事务包含A和日两者 算法的详细描述为 的百分比,即Support(A=*B)=P(A and B)。 输入:敏感规则集R ,原数据库集D,最小支持度Min— (2)它具有置信度c,其中c是D中包含A的事务同时也 supp,最小置信度Min—conf。 包含日的百分比,即Contldence(A=*B)=P(BtA)。 输出:敏感规则集得到隐藏后的数据库集D 。 同时满足最小支持度阈值(Min—sup)和最小置信度阈值 Begin For each rule r in RH do (Min—conf)的规则被称作强规则,即敏感规则。对关联规则隐 { 藏来说就是如何对一些预先给定的敏感规则集R 进行处理, / f,为规则的前提项,rr为规则的结果项,所选事务rr全包含对 应规则的所有项,事务rf,部分包含对应规则的前提项和结果项 / 使之不被关联规则挖掘所发现,同时又能保证数据库的完整 (1)T ={t ED/t fully supports r} 性。也就是说对于给定的数据库D,通过数据挖掘找出所有的 (2)Tlr={t e D/t partially suppotrs r and partially suppotrs 1 I 频繁项集和利用频繁项集所生成的关联规则集R,如何将数据 (3)TH=T UTIr (4)for random transaction t in TH do 库D转换成D ,使R 隐藏后R中的其他规则仍不受影响。在 l 隐藏技术方面主要是通过具体的清理算法来降低规则的支持 (5)ift∈Tl 则执行添加操作 l 度和置信度,使之低于最小支持度和最小置信度阈值,从而实 /十set to one all the bits oft that represent items in f ,即使事务t 现对敏感规则的隐藏。 包含规则r的前提项 / (6)set—all—ones(t.values—of_items,1 ) 如前所述,在关联规则隐藏方面目前已经提出了不少的隐 (7)supp(1 )=supp(1 )+1 藏算法,但普遍都还存在下述问题未能很好地解决,即如何减 (8)conf(r)=supp(r)/supp(1 ) 少清理算法对原数据库的影响,也就是需要解决算法所产生的 } (9)else if t E T 则执行约束操作 规则丢失和规则新生的问题(图2)。所谓规则丢失就是由于 { 的隐藏引起另一部分规则只。。的隐藏,即对于 //choose the item of r with the minimum 一部分规则 //impact on the(I rl一1)一itemsets。即取支持度较小的项 给定的数据库D、规则集R、敏感规则集R ,关联规则隐藏的 (10)j=choose—item(r) 目标是将R变化为R ,R 代表不再含有敏感规则的规则集。 //set to zero the bit of t.1istofitems ——//that represents item j,即使事务t减少一个规则的相应项 根据清理算法理想的情况应该是R =R—R ,实际上R =R一 (11)set—to—zero(j,t.vlaues—of—items) 风一 其中 是由于执行清理算法而被隐藏的非敏感规则 (12)supp(r)=supp(r)一1 集。所谓规则新生,就是指在原数据库中本不存在,但在对敏 (13)conf(r)=supp(r)/supp(1 ) } 感规则集R 进行隐藏后而产生新规则的问题。另外,新产生 (14)T =T 一t 的规则也会带来新的数据库推理问题。 (15)Repeat until conf(r)<=min—eonf or NumbTH=ITHl十(1一 ) 基于项的约束 f Non.Restrietive Restrictive (16)RH=RH—r Restrictive Rules(Rs) f End 横板共享H基于规则的约束 图1清理算法分类 图2清理算法影响图示 5 实验结果 4 OSA算法 实验选用的数据集包含3 196条事务,事务的平均长度为 37(It=37),包含61(1Iteml=61)个不同的项,规则的最大长 综合比较已有的清理算法,大部分算法在对解决原数据 度为4(1r=4)。 眸的影响方面都不是很理想,都会造成部分规则新生或规则丢 选择Algo2a和SWA算法进行对比,这是两种比较有代表 失。本文提出了一个改进的清理算法OSA(Optimizing Saniti— 性的算法。Algo2a算法通过删除敏感事务对应的项以达到降 zing Algorithm),该算法综合基于项的添加和基于项的约束隐 低对应规则支持度的目的,从而隐藏相关的规则;SWA算法则 藏算法的特点,对需隐藏的规则集R 同时采取项的添加和约 通过添加部分支持隐藏规则的事务前项,提高前项的支持度, 维普资讯 http://www.cqvip.com

・3O・ 计算机应用研究 2006年 进而降低规则的置信度来隐藏规则。 Sensitive Rules[C].Chicago:Proc.of IEEE Knowledge and Data 对实验结果的衡量包括三个参数:损失规则的比率( ), Engineering Workshop,1999.45-52. 增加规则的比率(AR),噪音率(NR=LR+AR)。由于数据集的 [4]A Evfimievski,R Sfikant,R Agrawal,et al,Privacy Preserving Mi 相似度较高,Support/Confidence设置为0.6/0.9,生了 ning of Association Rules[C].Edmonton:Prco.of the 8th ACM SIGKDD Int.Conf.on Knowlegde Discovery and Data Mining.2oo2. 57 492条规则,从中选取五条规则进行隐藏。 217.228. 实验结果如表1所示。 [5]s R M Oliveira,O R Zai'ane.Pfiv ̄y Preserving Frequent hemset 表1三种算法的对比 Mining[C].Maebashi City:Pros.of the IEEE ICDM Workshop on 参数 SWA Algo2a OSA Privacy,Security,and Data Mining,2002.43-54. LR 1.3O6% 1.929% 1.689% [6]S R M Oliveira,O R Za ̄'ane.Protecting Sensitive Knowledge by Data AR 1.925% 0.02% 0.1l5% Sanitization[c].Melbourne:Pmc.of the 3rd IEEE Intenrational 3.232% 1.949% 1.804% Conference on Data Mining(ICDM’03).2003.613,616. 从表1可以得出以下结论:在规则损失方面,OSA介于 [7]Oliveira S R M,Zaane O R,Saygin Y.Secure Association Rule Sha- SWA算法和Algo2a之间;新增规则方面,OSA和Algo2a相近, ring[A].Dai H,Srikant R,Zhang Cs.Advances in Knowledge Dis- 大大优于SWA算法;噪音率则是OSA算法最优。综合分析, eoveyr and Data Mining[c].Sydney:The 8th Paciifc・Asia Confe- rence,Proceedings,volume 3056 of Lecture Notes in Artiifcial Intelli- OSA算法要优于SWA和Algo2a,是对上述两种算法的综合和 gence,2004.74—85. 改进。 [8]Vassilios S Verykios。Ahmed K Elmagarmid,Elisa Bertino.et a1.As. 6 结束语 soeiation Rule Hiding[J].IEEE Transactions on Knowledge and Data Engineering,2004,16(4), 本文对关联规则的隐藏保护技术进行了一定的探讨,对目 [9]E Dasseni,V S Verykios,A K Elmagarmid,et a1.Hiding Association Rules by Using Confidence and Suppotr[C].Pittsburgh:Prco.of the 前的关联规则隐藏算法进行了介绍和分析,并提出了一个改进 4th Information Hiding Workshop,2001.369-383. 的关联规则隐藏算法OSA。实验结果表明该算法是一种优良 [1O]Y Saygln,V S Verykios,C Clitfon.Using Unknowns to Prevent Dis- 的关联规则隐藏算法,其综合性能要高于大多数现行的算法。 eoveyr of Association Rules[J].SIGMOD Record。2001.30(4):45. 参考文献: 54. [1 1]R Agrawal,T Imielinski,A Swami.Mining Association Rules Be・ [1]D E O’Leafy.Knowledge Discovery as a Throat to Database Security tween Sets of Items in Large Databases[C].Washington,Dc:Proc. [C].Pmc.of the 1 st Int’1 Conf.Knowledge Discovery and Databa- of ACM・SIGMOD Int.Conf.Management Data(SIGMD’93)。1993. se8.1991.107—516. [2]C Clifton,D Marks.Security and Privacy Implications of Data Mining 作者简介: [C].Proc.of ACM Workshop Data Mining and Knowledge Discove. 丁小刚(1979・),男,硕士,主要研究领域为数据库安全、数据挖掘、数 yr,1996. 据仓库;黄伟伟。男,硕士,研究方向为数据挖掘、数据库安全;柏文阳 [3]M Atallah,E Bertino。A Elmagarmid。et a1.Disclosure Limitation of (1967-),男,副教授,研究方向为数据库安全、数据挖掘、数据仓库。 (上接第15页) based Anti—Worm System[EB/OL].http://doi.ieeecomputeroscie. [1O]Spafford Eugene H.The Intemet Worm Program:An Analysis[J]. ty.org/10.1 109/AINA.2003.1 193006,2003. ACM Computer Communication Review,1989。19(1):17-57. [2O]左晓栋,戴英侠.“狮子”蠕虫分析及相关讨论[J].计算机工程. [11]郑辉,李冠一,涂奉生,蠕虫的行为特征描述和工作原理分析 2002,28(1):16-17. [C].第三届中国信息和通信安全学术会议论文集.北京:科学 [21]Zesheng Chen,Lixin Gao,Kevin Kwiat.Modeling the Spread of Ac・ 出版社.2003.168.172. tive Worms[EB/OL].http://www.ieee・infocom.org/2003/papers/ [12]栾新民,廖闻剑 Nimda蠕虫分析与防范[J].计算机应用研究, 46 O3.pdf.2003. 2002,19(11):155・158. [22]Stuart E Seheehter,Jaeyeon Jung.Arthur W Berger.Fast Detection [13]Zou Clif C,Gong Weibo,Don Towsley.Code Red Worm Propagation of Scanning Worm Infections[EB/OL].http://eecs.harvard.edu/一 Modeling and Analysis[c].Washintgon,DC:CCS’02,2002.18. stuart/papers/scanworm.pdf,2003. 22. [23]Stelios Sidiroglou,Angeles D Kemmytis.Countering NetworkWorms [14]Lance Spitzner.Honeyopts,Definitions and Value of Honeypots through Automatic Patch Generation[C].IEEE Security and Privcay, [EB/OL].http://www.spitzner.net/honeypots.htm1.2001. 2005. [15]卿斯汉,文伟平,蒋建春,等.一种基于网状关联分析的网络蠕虫 [24]Manuel Costa,Jon Crowcroft,Miguel Castor,et a1.Can We Contain 预警新方法[J].通信学报。2004,25(7):62.70. Intemet Worms[EB/OL].http://research.microsoft,com/一antr/ [16]邱晓鹏,张玉清,冯登国.蠕虫攻防技术综述[C].全国网络与 MS/HotNetsVigilante.pdf,2003. 信息安全技术研讨会专题论文集,2004.57.62. [25]Shigang Chen。Sanjay Ranka.An Internet Worm Early Warning Sys- [17]Mare MasuheUi.A Virus and a Worm:Lessons eLarned from Sircam tem[EB/OL].http://www.cise.uf1.edu/一sgchen/papers/globe- nad Code Red in a University Environment[EB/OL].http://rr. eom2OO4_worm.pdf。2004. gans.org/malicious/sircam2.php.2003. 作者简介: [18]Jose Nazario,Jeromy Anderson,Rick Wash.st a1.The Future of In_ 周涛(1979-),男,博士研究生,主要研究方向为网络环境下复杂系统 temet Womrs[EB/OL].http://www.blcakhat.conr/presentations/ 控制与信息安全;戴冠中(1937-),男,教授。博士生导师.主要研究方 JoseNazario/bh—usa一01-Joss—Nazario.pdf。2002. 向为自动控制、网络信息安全;幕德傻(1963 )。男,教授,博士生导师, [19]Jason C Hung。Kuan-Cheng Lin.Anthony Y Chang,A Behavior. 主要研究方向为模式识别、网络信息安全。 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- igat.cn 版权所有 赣ICP备2024042791号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务