您好,欢迎来到爱go旅游网。
搜索
您的当前位置:首页粒度计算中混合属性约简的权重模糊粗糙集模型

粒度计算中混合属性约简的权重模糊粗糙集模型

来源:爱go旅游网
第45卷第lO期 西安交通大 学 学报 Vo1.45 NO.10 2011年10月 JOURNAL OF XI AN JIAOTONG UNIVERSITY Oct. 2O11 粒度计算中混合属性约简的权重模糊粗糙集模型 刘洋 ,周清雷 ,冯博琴。 (1.郑州大学信息工程学院,450001,郑州;2.西安交通大学电子与信息工程学院,710049,西安) 摘要:针对权重粗糙集模型不能有效处理非平衡混合数据的问题,对权重论域上的各种类型变量 进行分析并建立统一的模糊等价关系,提出混合数据上的权重模糊粗糙集模型,并利用该模型构造 出带权模糊等价空间上的混合属性约简算法.混合属性约简算法产生的模糊软划分可以克服权重 论域上离散硬划分产生的信息损失.在非平衡混合数据集上进行的实验结果表明,与基于权重粗糙 集的算法相比,基于权重模糊粗糙集模型的属性约简算法的平均分类精度提高了l1.9 . 关键词:粗糙集;混合数据;模糊等价关系;权重论域;属性约简 中图分类号:TP391 文献标志码:A文章编号:0253-987X(2011)10-0043—05 A Weighted Fuzzy Rough Sets Model with Hybrid-Attribute Reduction in Granular Computing LIU Yang ,ZHOU Qinglei ,FENG Boqin。 (1.School of Information Engineering,Zhengzhou University,Zhengzhou 450001,China;2.School of Electronics and Information Engineering,Xi an Jiaotong University。Xi an 710049,China) Abstract:In order to solve the problem that weighted rough sets modellacks a mechanism to deal with mixed and imbalanced data,a unified fuzzy equivalent relationship for analyzing different types of features in weighted domain is established,and a weighted fuzzy rough sets model is pro— posed to dea1 with mixed data.Furthermore,a hybrid attribute-reduction algorithm is construe— ted based on the weighted fuzzy rough sets mode1.Compared with the classical crisp partition, the hybrid algorithm can avoid information loss through fuzzy soft partition generated by the mode1.Experimental results on imbalanced and mixed data sets show that the proposed weighted fuzzy rough sets model can not only select fewer features than weighted rough sets model,but al— SO improve the average classification performance of the reduced attribute set on learning methods by 11.9 . Keywords:rough set;mixed data;fuzzy equivalent relationship;weighted domain;attribute re— d1action 由Z.Pawlak教授l-1 提出的粗糙集理论被广泛 直接处理.此外,在工程、医疗和金融等领域,混合型 应用于知识依赖性分析、属性子集选择等问题[2].遗 变量无处不在.研究人员在引人粗糙集等机器学习 憾的是,作为一种有效的粒度计算模型,Pawlak粗 方法来处理该类数据时,往往采用离散化算法把数 糙集定义在经典论域的基础上,因此缺乏一种能够 值型变量和模糊型变量转化为符号型变量_4],然而 有效地结合论域上的先验信息和主观知识的机 这一转换不可避免地带来了信息损失,学习算法的 制_3],对于现实应用中广泛存在的先验性知识不能 性能在很大程度上取决于离散化的效果[5]. 收稿日期:2011—01—22. 作者简介:刘洋(1984一),男,博士,讲师. 基金项目:国家高技术研究发展计划资助项目 (2007AA0104O8). 网络出版时间:2011—07—29 网络出版地址:http:∥ cnki.net/kcms/detail/61.1069.T.20110729.1609.005.html 西安交通大学学报 第45卷 为了解决这一问题,人们引入了模糊粗糙集模 关系的扩展.对于符号型属性,其产生的模糊等价关 系就是Pawlak粗糙集模型描述的经典等价关系. 对于数值型属性,通常需要先对连续特征进行归一 化操作.L.Zadeh教授[1。]提出了一种基于相似性度 量函数的模糊相似二元关系sim(i,J)一g( (f)一 ( )j),这里函数g满足El3] 型__6]和邻域粗糙集模型[7].不同的模型基于不同的 粒度度量标准和逼近定义,但它们都属于粒度计算 的研究范畴L8].由于这些方法仅适用于普通论域上 的粒度度量,因此都缺乏处理主观知识和先验信息 的能力。文献29—11]研究了结合权重信息处理粗糙 集属性约简的问题,然而这些方法仅适用于符号属 g(0)一1;g(oo)一0;g(・)∈E0,13 (1) sim(i,J)一sim(j, ); sim(i, )=1 (2) 性的情形.文献E123基于带权论域上的模糊等价关 系,讨论了带权模糊近似空间,并给出有效的规则获 函数g有多种选择,本文采用如下定义 一取方法.但是,带权模糊近似空间的属性约简问题还 未查到有文献进行分析和研究. { ’ ㈣ 本文利用模糊等价关系的信息熵度量标准,提 出一种基于权重模糊粗糙集模型的混合属性约简算 式中: ∈E0,0.53,本文设置3=0.25. 对于模糊型属性,有许多可供选择的模糊相 法.该算法直观、易于理解,能够同时处理符号型、数 值型和模糊型变量,而无需对其进行离散化处理和 去模糊化处理.因此,与经典的粗糙集算法相比,该 算法结合了论域上的权重信息,而且省去了混合型 属性的预处理过程.由于该模型可以结合先验知识 并直接分析混合数据,因而拓展了经典粗糙集理论 的应用范围. 似性度量标准,例如Hamming相似性度量函数 或者最大一最小相似度量函数,其时间复杂度为 0(122)E143. 2权重模糊粗糙集模型 文献E123基于带权论域上的模糊等价关系,研 究了带权模糊近似空间的上、下近似,基于带权模糊 近似空间提出了有效的规则获取方法.本节将在此 基础上,对带权论域上的属性依赖问题进行深人的 讨论研究. 2.1权重信息系统 1 各类型变量空间的统一模糊粒度化 一—— — 表不 粒度表示是粗糙集理论和粒度计算的基本问 题,Pawlak粗糙集模型建立在离散空间的不可辨识 等价关系之上,等价关系对论域的划分形成了论域 定义3权重信息系统为一个五元组<U,A,V,/’, >,其中U是非空对象集合,A一{al’.一,a }为非 空属性集合,f:UXA—V为一个信息函数, 为属 空间的粒度化表示.然而,对于数值型、模糊型变量 空间,对象的取值可以是连续的、模糊的,采用等价 关系将导致对个别属性的过拟合.本文所讨论的模 型建立在模糊等价关系的粒度化表示基础上. 性值域的集合,W:【 R为论域【,上的权重分配函 数.通常,二元组<己,,叫>被称为权重信息系统的带权 论域空间,若A=CUD,其中C、D分别为条件和决 策属性集合,则权重信息系统也可称为权重决策信 息系统. 定义4给定一个带权论域<己,, >上的一个模糊集 定义1给定一个非空对象集合U--{z1,.”,z }, R一(r )mXm是己,上的一个模糊二元关系,其中r ∈ [0,1]为对象 ,和z,之间关系的度量. 一合X,X的带权度数定义为 般来讲,如果对于所有的z ,z,,z ∈U,R满 1 x l 一∑ ,Lx( ) 厶叫, J (4) 足自反性 一1、对称性 — 和传递性r 一 定理1给定一个带权论域< , >上的2个模糊集 ^,(r 八r ),则称R是一个模糊等价关系. 定义2 由模糊等价关系R产生的模糊等价划分为 ~ 合X、y,如果X y,则以下公式成立 0≤l X l ≤1  JX j ≤J Y} X n y I 一I x l X U y 1 一l Y l (5) (6) (7) r u/n一{[z,]i),其中[ ]i—1 /x 为包含对象z r 的模糊等价类,I表示模糊集合元素的并. 由定义2可以看出,模糊等价关系是经典等价 http://www.jdxb.cn (8) 第1O期 刘洋,等:粒度计算中混合属性约简的权重模糊粗糙集模型 文献E12]研究了带权模糊近似空间的上、下近 似,本文不再赘述.下面对带权论域上的属性依赖性 度量进行讨论. 的决策信息系统而言,计算量会大到不能容忍.本节 将基于属性子集的信息增益,构造一个前向贪心约 简算法.信息增益函数描述了条件属性对分类的贡 献,因此可以作为属性集合重要性度量的评价指标. 定义5给定一个权重决策信息系统<U,A,V,f, 叫>,B C,L 为属性集的正域,B相对于决策属性 D的带权依赖度定义为 yR(D,硼)一I Lp0s(D)J (9) 定义8给定一个权重决策信息系统,其中B C, 口∈C\B,属性口相对于属性集B的相对重要度定 义为 G (口,B,D)一 根据定义可知,),∈Eo,1].当y一1时,决策属性 集合D完全依赖于B;当0<7<1时,决策属性集 H(B I D,叫)一H(B U{12)I D,叫) (13) 合D部分依赖于B;否则,y=0时,决策属性集合D 不依赖于B. 2.2属性依赖程度的信息熵度量 定理3给定一个权重决策信息系统,其中B C, 口∈C\B,则G (以,B,D)≥0. 证明只需证明H(B JD 叫)≥H(BU{ )lD,叫). ,信息熵已经广泛应用于粗糙集理论的属性重要 因为[‘]蠢n[z ]蠢2Ex ] 日U{rl[ ]五由定理 。。。 。性度量中,但是对于带权论域上模糊等价关系的信 息熵度量方式,需要给出新的定义来刻画属性在带 权论域空间上的分辨能力. 1有l Ex r-1 得证.  I≥l Ex n Ex ] ̄D I , 因此有H(B l D, )≥H(B U{口)l D, ).定理3 定义6给定一个带权论域(U, >,对于带权论域 上的任意一个模糊等价关系R,其信息量函数定 义为 图1给出本文基于权重模糊粗糙集模型的混合 属性约简算法(wFR AR),它能够确保重要的属 性首先被加入到备选约简集合中,从而不损失重要 的属性特征. 输入:权重决策信息系统< A, f,w>,阈值参数. 输出:一个属性约简集合E. H(R, )一一∑ Llg I[‘]i I (10) i厶Wj J 定理2给定权重信息系统,其中B,E C,由B、E 步骤1:对于所有的口∈C计算H(alD,w); 产生的模糊等价关系分别为R、s,则集合B、E的联 合信息熵为 H(B U E,叫)一 步骤2:a=arg max口∈cH(a{D,w), {4); 步骤3:对于所有的a∈C\E,计算G (a,E,D); 步骤4:a=arg maxa∈c、 Gw(口,E,D); 步骤5:如果G (4,E,D)<s,返回E;否则 u{a),转步骤3 ∑ Llg  IEx ]蠢n Ex ]i I (11) 厶叫 图1基于权重模糊粗糙集的混合属性约简算法 证明 由定义可知H(B U E, )一H(R n S, 一一 争W i i r-1  3 ……… …效 性,本文从UCI机器学习数据库[ 中挑选了4组数 据,描述如表1所示.可以看出,这4个分类问题都 [t]i一[z ]赢n.g,故定理2得证.- 定义7给定权重信息系统,其中B,EqC,由B、E 产生的模糊等价关系分别为R、Js,则集合B、E的条 件信息熵为 是混合型数据,并且各类之间的分布是不平衡的. 定义9给定m一、W/+分别为少数类、多数类的用例 表1数据集描述 一一 轰-了 g (12) 2.3基于权重模糊粗糙集的混合属性约简算法 发现权重决策信息系统的全部约简需要测试 2”一1个属性子集,以检验它们是否满足约简的条 件,其中 是条件属性的数量.这对于属性子集较多 httpt }VCVC ̄VV. dxb.an 西安交通大学学报 第45卷 数,w一、w+分别为少数类和多数类上用例的权重, 0.15,…,0.9,0.95,记录每次实验中学习算法在约 少数类权重总和所占的比例定义为 简数据集上的真正率、假正率对,利用3次样条插值 触 P一::=—— (14) 积分法计算分类算法的平均分类精度AUC(area 砸 1L勰 under ROC curves),评价2种约简算法选择特征的 由定义可知,随着P一的增加,少数类用例的权 质量. 重和也相应增加.当P一一0.5时,逆类概率权重分 表2给出了2种属性约简算法在数据集上选择 配给了每一个类,此时数据集通过权值分配达到了 的特征集结果,以及作为学习器的前端约简工具所 各类之间的平衡效果.为比较本文算法(WFRS_AR 取得的平均分类精度.由表2可以发现,这2种算法 算法)和基于权重粗糙集的算法(WRS-AR算 都能有效地降低特征数量,相对而言,WRS-AR算 法)l_11]在非平衡混合数据集上选择特征的分类能 法得到的特征数量较少,但平均分类性能也较低.由 力,将2种约简算法分别作为当前流行的基于权重 于WFRS-AR算法不受离散化预处理的影响,通过 的RBF—SVM分类学习算法[ ]的前端属性约简工 为不同类别实例分配合适的权重,在保留了相对较 具.符号和数值属性的粒度表示采用了本文第2节 少的特征数的同时,约简属性集在分类算法上的平 的方法.本文算法的s取值0.012 5.实验中,固定少 均分类精度提高了11.9 . 数类w一的权值,选择W+使P一依次为0.05,0.1, 表2 2种算法的实验结果 4结论与展望 简口].计算机学报,2002,25(7):759—766. WANG Guoyin,YU Hong,YANG Dachun.Decision 本文基于模糊等价关系的信息熵概念提出一种 table reduction based on conditional inf0rmation entro— 分析混合数据的权重模糊粗糙集模型.该模型以带 PY[J].Chinese Journal of Computers,2002,25(7): 权论域空间中的模糊等价关系形成论域的粒化,从 759—766. 而将先验知识引入混合数据的粒度计算模型.本文 [3]TING K.An instance-weighting method tO induce cost—sensitive trees FJ].IEEE Transactions on Knowt 进一步给出了带权论域上模糊等价关系的信息量度 edge and Data Engineering,2002,14(3):659—665. 量方法,基于信息量增益展示了本文模型在混合属 [4]谢宏,程浩忠,牛东晓.基于信息熵的粗糙集连续属 性约简选择中的应用.实验分析表明,通过对用例进 性离散化算法[J].计算机学报,2005,28(9):1570— 行权重分配,权重模糊粗糙集不仅可以选择很少量 1574. 的特征,而且可以改善分类器在非平衡数据集上的 XIE Hong,CHENG Haozhong,NIU Dongxiao.Dis— 平均分类性能,验证了本文算法的有效性.后续的工 cretization of continuous attributes in rough set theory 作将研究本文模型在代价敏感学习问题中的应用, based on information entropy[J].Chinese Journal of 此外改进本文模型的海量数据快速约简算法也是研 Computers,2005,28(9):1570—1574. 究方向之一. [53 Hu Qinghua,Xie Zongxia,Yu Daren.Hybrid attrib— ute reduction based on a novel fuzzy-rough model and information granulation[J 1.Pattern Recognition, 参考文献: 2007,40(12):3509—3521. [1]PAWLAK Z,SK0wR0N A. Rudiments of rough [6]DUBOIS D,PRADE H.Rough fuzzy sets and fuzzy sets FJ].Information Sciences,2007,177(1):3-27. rough sets[J].International Journal of General Sys E2]王国胤,于洪,杨大春.基于条件信息熵的决策表约 tems,1990,17(2):191—209. http:∥www.jdxb.cn 第1O期 刘洋,等:粒度计算中混合属性约简的权重模糊粗糙集模型 47 [7]胡清华,于达仁,谢宗霞.基于邻域粒化和粗糙逼近 的数值属性约简EJ].软件学报,2008,19(3):640— 649. Proceedings of the European Conference on Machine Learning.Berlin,Germany,Springer-Verlag,2003: 23—34. HU Qinghua,YU Daren,XIE Zongxia.Numerical at— tribute reduction based on neighborhood granulation [本刊相关文献链接] 容积粒子滤波算法及其应用.西安交通大学学报,2011,45 (8):13-17. and rough approximation[J].Chinese Journal of Soft— ware,2008,19(3):640—649. [8]HU Qinghua,LIU Jinfu,YU Daren.Mixed feature selection based on granulation and approximation[Jj. Knowledge-Based Systems,2008,21(4):294—304. 逆向工程中一种鲁棒的平移对称提取算法.西安交通大学 学报,2011,45(7):70—75. 一种鲁棒的子空间聚类算法.西安交通大学学报,2011,45 [9]XU Changzhi,MIN Fan.Weighted reduction for deci— (6):13-19. sion tables[c]∥Proceedings of 3rd International Con— ference on Fuzzy Systems and Knowledge Discovery. 引入模糊推理与强跟踪滤波技术的交结构多模型估计.西 安交通大学学报,2011,45(6):27—33. 一Berlin,Germany:Springer-Verlag,2006:246—255. 种采用偏最小二乘回归的情绪调节策略预测模型.西安 [1o]HU Qinghua,Yu Daren,XIE Zongxia,et a1.Fuzzy probabilistic approximation spaces and their informa— 交通大学学报,2011,45(6):46—49. 采用任务剖面的复杂可修系统保障性仿真与评价技术研究. 西安交通大学学报,2011,45(4):53—59. tion measures[J].IEEE Transactions on Fuzzy Sys— terns,2006,14(2):191—201. 三角B ̄zier曲面粗加工刀轨生成算法.西安交通大学学报, 2011,45(3):70-74. [11]LIU Jinfu,HU Qinghua,Yu Daren.A weighted rough set based method developed for class imbalance 广义证据理论中的基本概率指派生成方法.西安交通大学 学报,2011,45(2):34—38. learning[J].Information Sciences,2008,178(4): 1235—1256. 面向重用的三维CAD模型检索算法.西安交通大学学报, 2011,45(1):74-78. 一[12]LIU rang,FENG Boqin,BAI Guohua.Compact rule learner on weighted fuzzy approximation spaces for 种准线性光束平差方法.西安交通大学学报,2010,44 class imbalanced and hybrid data Ec] f Proceedings of 6th International Conference on Rough Sets and Cur— rent Trends in Computing.Berlin,Gemany:Springer- Verlag,2008:262—271. (12):1-4. 广义证据理论的基本框架.西安交通大学学报,2010,44 (12):l19-124. 利用特征子空间评价与多分类器融合的高光谱图像分类. 西安交通大学学报,2010,44(8):20—24. [13]ZADEH L.Fuzzy sets[J].Information and ontCrol, 1965,8(3):338-353. 高斯衍生粒子滤波器.西安交通大学学报,2010,44(6):72— 77. 一[14]LEE H.An optimal algorithm for computing the max- airn transitive closure of a fuzzy similarity matrix口]. Fuzzy Sets and Systems,2001,123(1):129—136. 种多源遥感图像分割的融合新策略.西安交通大学学报, 2010,44(6):88-92. [15]FR ANK A,ASUNCION A UCI machine learning re— 图像分割的谱聚类集成算法.西安交通大学学报,2010,44 (6):93-98. pository[DB/OL].[2010—12—22].httpt }archive. ics.uci.edu/m1. 应用变量因果序分析的符号有向图建模方法.西安交通大 学学报,2010,44(5):85—90. [16]BREFELD U,GEIBEL P,WYSOTZKI F.Support vector machines with example dependent costs[c]∥ (编辑刘杨武红江) 《科研论文写作新解》出版 本刊讯《西安交通大学学报》副主编赵大良编著的《科研论文写作新解》已于2011年9月由 西安交通大学出版社出版.该书以主编和审稿人的视角诠释了科研论文的写作,作为科研论文写作 教材的辅助读物,解决了作者与编者之间的信息不对称问题,适合于具有一定写作基础或投稿经历 的读者阅读.该书尽管是为论文作者而写,但对于普通期刊编辑认识学术出版的本质、增强与作者 沟通的能力、提高办刊水平也具有很好的参考价值. http:∥V4YCW.jdxb.en 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- igat.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务