您好,欢迎来到爱go旅游网。
搜索
您的当前位置:首页半监督学习在不平衡样本集分类中的应用研究

半监督学习在不平衡样本集分类中的应用研究

来源:爱go旅游网
第30卷第4期 计算机应用研究 Vo1.30 No.4 2013年4月 Application Research of Computers Apr.2013 半监督学习在不平衡样本集分类中的应用研究木 于重重 ,商利利 ,谭励 ,涂序彦 ,杨扬 (1.北京工商大学计算机与信息工程学院,北京100048;2.北京科技大学计算机与通信工程学院,北京 100083) 摘要:在对不平衡样本集进行分类时容易产生少数类样误差大的问题,而目前半监督学习中的算法多数是针 对未有明显此类特征的数据集。针对一种半监督协同分类算法在该问题上的有效性进行了研究。由于进一步 增强了分类器差异性,该算法在理论上对不平衡样本集具有良好的分类性能。根据该算法建立分类模型,利用 其对桥梁结构健康数据进行分类实验,与Tri.Training算法的结果比较表明,该算法对不平衡样本集具有良好的 适用性,从而验证了上述算法的有效性。 关键词:不平衡样本集;半监督协同分类方法;分类器差异性;分类模型;桥梁结构健康数据 中图分类号:TP181 文献标志码:A 文章编号:1001—3695(2013)04—1085.05 doi:10.3969/j.issn.1001—3695.2013.04.034 Semi-supervised learning in imbalanced sample set classiifcation YU Chong—chong ,SHANG Li..1i,TAN Li. ,TU Xu—yah ,YANG Yang (1.School ofComputer&Information Engineering,Beijing Technology&Business University,Beijing 100048,China;2.School foComputer& Communication Engienering,University of Science&Technology Beijing,Beijing 100083,China) Abstract:Higher error rate emerged in the minority class of samples when make classiifcation on imbalanced sample set,but most algorithms in semi—supervised learning are based on normal data set.This paper studied the effectiveness of a semi—super・ vised collaboration classiifcation method.Because of the further enhanced classiifer difference,this algorithm had good per— formance on classification of imbalanced sample set.It established classiifcation model based on the above algorithm,and used this model to make classiifcation with bridge structural health monitoring data.the compared results of which demonstrated the applicability to imbalanced sample set.Therefore it validated the effectiveness of the algorithm. ’ Key words:imbalanced sample set;semi-supervised collaboration classiifcation method;classiifer difference;classiifcation model;bridge structural health data 在半监督学习领域已有的诸多分类算法 中,多数并未 0引言 考虑不平衡样本集的分类问题。然而该类数据集的普遍存在 目前,机器学习和数据挖掘中各种算法的研究,大多数是 却是一个实际的问题。 基于样本集中各类别样本数据无明显差异的假设,即样本集为 本文旨在研究一种增强差异性的半监督协同分类算法 平衡样本集。在进行实验时,也是尽量选择满足上述假设的数 (semi—supervised collaboration classification algorithm with en— 据集。但在实际问题中,大多数数据集都是不平衡的,不同类 hanced difference,DSCC算法)在不平衡样本集分类问题上的 别的样本数目差距很大,数据类别的不平衡会导致分类器针对 适用性。DSCC算法是在前期研究Co—training算法 的过程 不同类别数据的分类效果迥异。以两类数据样本集为例,样本 中,通过对Zhou等人提出的Tri—Training算法 的理论分析和 数目少的类别称为少数类,样本数目较多的类别称为多数类, 实验对比提出的。该算法从分类器多样化形式、模型更新策略 两者的样本分别称为正样本和负样本。在利用分类器进行分 和未标记样本预测方法等方面对分类器性能的提高作了进一 类时,由于训练集中两类样本数量差距较大,分类器对样本 步考虑。与其他半监督协同分类方法相比,由于该算法通过不 的分类结果总是会倾向于多数类的类别,因此会在少数类样 同分类器的使用进一步增强了分类器的差异性,且在最终预测 本上产生较大的错误率。可以看出,利用基于平衡数据集假 时利用基于标记准确率的加权投票法实现分类器的集成,充分 设的算法来对不平衡样本集进行分类,势必会造成大的分类 考虑了分类器之间的差异性。 误差。因而针对不平衡样本集的分类问题,选择合适的算法 在DSCC算法的基础上,本文建立了分类模型,利用其对 是尤为重要的。 桥梁结构健康监督数据这类具有明显不平衡特征样本集进行 收稿日期:2012—07 27;修回日期:2012—09.05 基金项目:国家自然科学基金资助项目(61070182);北京市组织部优秀人才资助项目 (2010D005003000008);北京市学科建设项目(PXM2012_014213 oooo 74,PXM2012_014213_oooo_23) 作者简介:于重重(1971一),女,辽宁丹东人,教授,主要研究方向为智能信息处理与模式识别、复杂实时监测系统预测与评估(chongzhy@vip. sina.com);商利利(1986一),女,硕士研究生,主要研究方向为机器学习;谭励(1980一),女,副教授,博士,主要研究方向为机器学习、多模态信息处 理;涂序彦(1935.),男,教授,博士,主要研究方向为人工智能、专家系统、智能控制等;杨扬(1955-),男,教授,博导,主要研究方向为图像处理与模 式识别、云计算技术、无线通信等. ・l086・ 计算机应用研究 第30卷 分类,通过实验对比分析,验证了DSCC算法在不平衡数据集 分类问题上的可行性和有效性。 上述各种算法在实验中都得到令人满意的效果。但是这 些算法的研究都是基于数据集中存在大量的标记样本的假设, 在训练过程中实现数据分布的重构或者是分类器性能的提高, 而对于含有大量未标记数据但标记数据难以获取的情况却没 有给予考虑。对于缺少大量标记数据且是不平衡样本集的问 题,在前期研究过程中提出了一种改进集成迁移学习算法 。 1 不平衡样本集分类方法 目前,在机器学习领域,对于不平衡数据集分类方法的研 究主要有两个方向ts]:a)重构数据集分布,降低不平衡程度; b)设计或改进学习算法,改变传统方法在解决不平衡数据集 分类问题时的缺陷。 在已有的研究成果中,多数研究者的做法是通过改变不平 该算法针对不平衡样本集特性和已有算法特点,分别设计了平 衡样本权重的方法和改进了已有迁移学习算法,提升了迁移学 习对非平衡样本的学习能力,很好地解决了部分桥梁标记数据 缺乏的问题。 衡样本集的数据分布来提高分类性能。刘胥影等人 针对类 别分布不平衡数据的分类问题,提出一种BalanceCascade算 法,通过逐步缩小多数类使数据集趋于平衡,并在最后通过对 分类器进行集成实现了样本预测。秦娇龙等人 提出一种基 于Bagging组合的不平衡数据分类方法CombineBagging。该方 法首先采用少数类过抽样算法SMOTE进行数据预处理,使数 据分布趋于平衡,然后采用三种不同的基分类器进行Bagging 解决标记数据缺乏的另外一种方法是利用半监督学习方 法,即利用容易得到的大量未标记数据来辅助难以得到的少量 的标记数据进行学习。在对半监督学习中的分类算法的研究 过程中,经过理论分析和实验验证笔者认为分类器之间的差异 性有助于提高对不平衡样本集的分类性能。这是因为,不平衡 样本集中多数类样本数量远多于少数类样本,会造成多数样本 之间的相似性强,在不改变原有不平衡样本集分布的情况下, 增强算法中分类器之间的差异性,能够使得在进行训练时,即 使训练集相似,多分类器的协同训练也不会因此退化为单分类 器的自训练,在一定程度上弥补了不平衡样本集所造成的大的 分类错误率。基于上述理论,DSCC算法在不平衡样本集分类 问题上应当具有良好的效果。 集成学习,再通过投票规则得出最终的分类结果。韩敏等 人 提出一种径向基函数神经网络和随机森林集成的混合分 类算法。该算法首先在小样本之间用随机差值方法平衡数据 集的分布,然后再以径向基函数神经网络作为随机森林中的基 分类器,最后用绝大多数投票方法进行决策的融合和输出。李 秋洁等人 对基于Boosting的不平衡数据分类算法进行了研 究,并提出权重采样Boosting算法,通过改变初始数据分布来 得到适用于不平衡数据的分类器。 2半监督协同分类模型 2.1 增强差异性的半监督协同分类算法 另外一些学者主要针对已有分类算法在不平衡样本集分 类上的适用性差的问题,根据这类样本集的特点,提出新的分 类算法。方景龙等人 针对现有的支持向量数据描述 (SVDD)算法在解决不平衡数据集问题时通常存在显著偏差, 提出一种用于平衡数据分类的FE—SVDD算法。通过主成分分 析对SVDD算法中的参数进行重新定义。陈金坦等人 为提 高不平衡数据集中少数类的分类性能,提出一种改进的Ada— Boost算法,它主要通过损失一定程度的多数类分类性能来提 高少数类的分类性能,然后利用多个分类器的集成弥补这部分 损失。 基于Tri—Training算法的理论假设,为了进一步增强分类 器之间的差异性,DSCC算法在初始分类器的选择方面采用了 三种不同的监督算法。基于此,不再适宜用简单多数投票法来 对未标记样本进行预测,该算法中采用了一种基于分类正确率 的加权投票法。该算法还针对Tri—Training算法的模型更新条 件中对已标记样本进行随机抽样很有可能会导致分类性能恶 化的现象,采用了基于样本类别的分层抽样方法。其基本流程 如图1所示。 图1 DSCC算法基本流程 该算法中,基于标记类别的分层抽样方法和基于分类准确 率的加权投票法的主要内容如下: a)基于标记类别的分层抽样方法 方法流程:首先统计已标记样本中类别的数量,记为日,日 其核心思想是对于给定样本集,分类正确率高的赋予较高 的权值,分类正确率相对较低的赋予低的权值。其中分类正确 率采用的是分类器对于已标记样本 的分类正确率。最终的 预测结果利用下式来得到。 w‘ = 其中:e 为分类器 的分类误差。 代表分层抽样的层数。统计各种标记类别的样本比例,并按照 比例和抽样子集的大小确定每一层的抽样数量。 其实现伪代码如代码1中的函数S=StratSample[L ,F/, ]。 b)基于分类准确率的加权投票法 此外,在算法中,考虑权重分配方法的选择主要基于如下 第4期 于重重,等:半监督学习在不平衡样本集分类中的应用研究 endfor%计算权重 ・1087・ 事实:预测误差是反映单项预测模型性能的一个重要指标,预 测误差越大,表明该预测模型的预测精度就越低,从而它在组 合预测中的重要性就会降低。重要性的降低以它在组合预测 中的加权系数变小来表现。反之,预测误差较小的单项预测模 型在组合预测中应赋予较大的加权系数。下面给出了DSCC 函数S=StratSample[L。,n ] { S+一 orf x∈L do 算法的伪代码。 算法:增强差异性的半监督协同分类算法(DSCC) 输入: 为原始已标记样本集; 为未标记样本集; IA为监督学习算法; BootStrap为可重复采样函数; Error为分类错误率计算函数; StratSample为基于标记类别的分层抽样函数; n 为抽样子集的样本容量。 输出: h x) g max∑i:hi(x)=yW・ v∈ fori∈(1,2,3)do S ̄---BootStrap(L1 h。一LA。(S )%建立三个不同的分类器 e. +-0.5%设置初始分类错误率 l。 +_o%初始化标记样本集容量 W.+_o%初始化分类器投票权重 endfor%初始化各参数 循环:迭代直到分类器h;不再更新 fori∈(1,2,3)do L。一 ; update。 FALSE; ei ̄---MeasureError(hj&hk)(J,k≠i) if(e。<e. )%本轮分类错误率小于上一轮 for x∈U do if h。(x)=hk(x)j,k≠i then Li=L。u{(x,h;(x))} U。一(U。一x) end for if(1。 ,--0)%hi尚未更新 if(Li <ILiI&e。IL。l<ei Jli,I)%更新条件 then Updatei TRUE el if(1i I )%判断是否需进行分层抽样 then L。=StratSample[Li,n ] Update.+一TRUE endfor f0ri E(1,2,3)d0 if Update:+一TRUE then h。+_Learn(LuL。);e。 +_e。;1:+_lL。l end for 循环结束 ofri∈(1,2,3)d0 ei—I 丁 ■ H=HuH %统计标记类别数量 end for ofr i=1:H do n。=L 音%确定第i层抽样数量n。 S。=Subsample(n ,L。)%随机抽取n。个样本 S=S。US end for return S; } 2.2对不平衡样本集分类问题的有效-陛分析 主要基于以下两点,本文算法在不平衡样本集分类问题上 具有一定的优势: a)不同分类器的使用 多数情况下,不平衡样本集数据本身差异性很小,仅通过 初始样本的采样并不能很好地实现分类器的多样性,反而可能 会使多分类器的协同训练退化为单分类器的自训练,失去了半 监督学习和协同训练的价值和意义。 当使用同一种学习方法对数据进行训练,即使训练样本集 不同,对于任意一个未标记样本,若其正确标记是P,那么无论 用的是何种分类算法,只要分类器具有一定的准确率,那么三 个分类器对该样本的分类结果相同的概率要大于不同的概率, 因此会减弱使用多分类器的意义。 使用三个不同的分类器增强了算法的差异性,按照前文的 分析,这会提高对不平衡样本集的适用性。 b)基于标记类别的分层抽样方法的采用 在Tri—Training算法的模型更新过程中,对于样本£ 采用 随机抽样的做法,可能会因为样本选取不当而使模型在第t轮 更新后,并不如t一1轮的模型。尤其是当样本集本身具有不 平衡特性时,已标记的样本中可能含有大量的相似样本,这类 样本可能具有相同的标记(如均为正样本),或者样本属性数 据具有相似的分布。对这类样本集进行随机子抽样,会造成因 样本差异性小使得分类器准确率低的问题。 基于标记类别的分层抽样方法在对样本进行抽样时,按照 类别之间的样本比率分别进行抽取。该方法的使用,使得在模 型更新的过程中对已标记样本集进行抽样时,同一类别的样本 被抽到的概率降低,从而在某种程度上保证了分类器之间的差 异性,同时降低由于引言第一段中阐述的原因所造成的分类错 误率。 2.3分类模型的建立 基于DSCC算法,本文所建立的半监督协同分类模型流程 如图2所示。该模型主要包括原始数据导入、数据预处理、协 同训练、模型预测和结果输出五个部分。数据预处理部分主要 是通过一些简单的预处理方法来形成标准的样本集,主要包括 整理参数,对各个参数所包含的属性进行量化处理,并利用基 本的特征选择方法去除其中的冗余特征等。 ・1088・ 计算机应用研究 一一一一一一一一一一_一一一一一一一一:测试过程   :第30卷 3 000、3 163和3 772,其中正负样本数量所占比率分别为89. 9%和10.1%,87.5%和12.5%,4.8%和95.2%,6.1%和93. 9%,以此保证了其典型的不平衡性。 2)样本集分配 针对每个样本集,选用25%的数据作为测试样本集,剩余 的75%的数据作为训练样本集,其中,训练样本集中未标记样 一处一一预] 引虬  本的比例依次选用20%、40%、60%、80%。 3)分类器选择 图2半监督协同分类模型工作流程 本实验中,DSCC算法分别选用基于树图理论的J48 (C4.5)、基于神经网络理论的RBF和基于概率的NaiveBayes 分类器。Tri—Training算法采用三个相同的分类器,因此分别考 虑了其基分类器均采用J48(C4.5)、RBF和NaiveBayes分类器 时的三种情况。 蓠] 一厂● .十一 训● ●嚼L 一剩集一, 一 如图2所示,一般来说,所能得到的数据集都不是标准数 据集格式,尤其是不平衡样本集,因此在利用数据前需要进行 预处理,从而形成训练样本集。在训练过程中,首先选择分类 器,利用原始已标记样本集训练初始分类器,然后多分类器之 间协同学习实现对未标记数据的标记。在预测过程中,通过将 4)评价指标 采用算法对测试集的分类错误率作为评价指标,并定义性 能提高比率作进一步的比较分析。 Ⅳ 一本~样  一~~; .T二 ~ 型~ ; 三个分类器形成一个集成来得到最终标记结果,即利用基于标 记准确率的加权投票法预测未标记样本的类别。最后是进行 结果的输出和分析,得到有用决策指导信息。 R= .一×100% P (1) 3数据分类实验 3.1 桥梁结构健康数据 R。 :—l_ ×100% (2) 式(1)中R指的是算法分类错误率, … 是分类正确的 样本数目,N指的是总样本数;式(2)中Rimww是算法2相对于 算法1的性能提高比率。 本实验主要包括两个部分:利用两个桥梁数据集进行 DSCC算法与J48、RBF和NaiveBayes三种监督算法的性能比 桥梁结构健康监测主要是通过监测系统对桥梁结构的使 用性能、工作状态及整体行为进行实时监测,并提供必要的关 键数据,为评估桥梁的健康状况提供重要信息,同时为桥梁的 安全运营与维护管理提供科学的决策依据和指导 。 桥梁结构参数是反映桥梁结构健康状况和运营状态的重 要参考指标,通过对其进行分类,可以获取桥梁结构健康的信 息。其参数主要包括沉降、应变、倾斜和振动等。所采集的参 数的原始数据属性包含测点号、监测位置、监测时间、温度和参 数值等。 较,利用四个数据集进行DSCC与Tri—Training算法的性能比 较。本实验旨在通过将DSCC与监督学习算法和半监督学习 算法的性能比较来说明该算法对于不平衡样本集分类问题的 适用性。 3.3数据分类实验 桥梁结构健康特征属性集包含连续属性(如温度、应变 值等)和离散属性(位置属性、时间区间属性等)。该类数据 集中,正常样本数量远多于异常样本,为一种典型的不平衡 数据集。图3为按照时间顺序监测到的北京某桥3 000个样 本的样本类别分布图,该图更直观地展示了桥梁结构健康数 据的不平衡性,其中,类别1为正常样本,类别2、3和4分别 为异常样本。可以看到,类别1的样本数量分别远多于后三 者的类别数量。 1)与监督算法的性能比较 在建立的分类模型的基础上,利用桥的数据集进行实验, 同时利用三种监督学习算法进行同等条件的实验,结果如表1 所示。图中记录的是DSCC和三种半监督学习算法对桥梁结 构健康数据集进行分类的错误率(表中NB代表NaiveBayes分 类器)。 表1 DSCC算法与监督学习算法的分类错误率比较 幡 壮 一 一 ■ 类型 图3北京某桥结构特征属性样本集数据分布 3.2实验设置 2)与半监督学习算法的性能比较 (1)算法分类错误率 表2中记录了在四种不同的未标记比率下,DSCC和Tri— Training算法分别利用四个不平衡样本集进行实验时的分类 1)数据来源 本实验数据包含四个数据集,即北京某桥数据集、杭州某 桥数据集和两个UCI数据集(hypothyroid和sick),桥梁结构健 康数据集为一类典型的非平衡样本集,这点前文已作详细分 析。四个样本集的类别个数均为2,样本数量分别为3 000、 错误率对比结果(其中TT—J48、TT—RBF和TT—NB分别代表了 采用_『48、RBF和NaiveBayes分类器时的Tri—Training算法)。 第4期 于重重,等:半监督学习在不平衡样本集分类中的应用研究 ・1089・ 表2 DSCC算法与半监督学习算法在不同未记率下的分类错误率比较 0 对 口董0 8口g一一 ;.;; -雏醵量 _J_:-l 综上所述,可以说明本文提出的DSCC算法相对于Tri— 2)算法相对性能提高比率 根据式(2)定义DSCC算法相对于Tri—Training算法的性 能提高比率 Ri :—eTT-eDSCC__×100% (3) TT 其中:e 指的是DSCC算法的平均标记错误率;eTT指的是 Tri—Training算法的平均标记错误率。 根据表2,利用式(3)计算出DSCC算法相对于Tri.Train— ing算法的性能提高比率,结果如图4所示。 。 一一一— \  、—————— ————— ———— dataset (a)20%未标记率下DSCC (b)40%未标记率下DSCC 算法的性能提高比率 算法的性能提高比率 n 、、 、 I、 々 l 、 、、 、 、| —— ——————+————————_———————I [- ̄-TT J48-'O"TT-RBF-OTT NB] (c)60%未标记率下DSCC (d)80%未标记率下DSCC 算法的性能提高比率 算法的性能提高比率 图4 DSCC算法相对于Tri.Training算法的性能提高比率 3.4分类结果分析 根据表1中的实验结果可以看出,DSCC算法与三种监督 学习算法相比,前者对桥梁结构健康数据的分类错误率明显低 于后者。 由表2记录的实验结果和图4可以看出,DSCC算法相对 于Tri—Training算法而言,前者对于具有明显类别不平衡特征 的数据集而言,具有明显的优势。具体来说,在大多数情况下, 本文提出的DSCC算法对不平衡样本集的分类结果具有较低 的分类错误率。 除此之外,实验结果还说明了如下问题。对同一数据集而 言,不管是利用何种分类算法,分类模型的分类错误率不完全随 着未标记样本率的增大而增大,即只有一定比率的未标记样本 才能够很好地辅助标记样本,提高分类模型的性能;针对不同的 数据集,在不同的未标记样本率下,DSCC算法性能提高比率具 有相似的变化特点,说明该算法具有一定的稳定性。 Training算法而言,在处理不平衡样本集分类问题上,具有一定 的性能提高,从而说明了本文算法在不平衡样本集分类问题上 的适用性。 4结束语 本文的主要工作在于根据在前期研究过程中提出的 DSCC算法,建立了半监督协同分类模型,并利用其对不平衡 0罨dg甚4 uH葛星9【I 盆 样本集数据进行分类来验证DSCC算法的优越性。薯售詈o 0Jd昌一 o 叠 g吕0 2Q暑 0 0 0  0 本文首先对DSCC算法进行了较为详细的介绍,并从理论 上说明了该算法对不平衡样本集使用的原因所在,然后建立了 分类模型,在利用分类模型进行不平衡样本集分类实验的过程 中,分别将该算法与监督算法和半监督算法进行了全面的比 较。实验结果证明DSCC算法在不平衡样本集分类问题上的 适用性和有效性。 实验分析得到的结论为DSCC算法的应用领域提供了有 意义的指导。进一步地,本文还证明了在桥梁结构健康监测 中,利用未标记样本来辅助标记样本,可以更好地完成数据分 析和桥梁健康诊断的目的,体现了本文模型方法的应用价值。 希望本文关于DSCC算法的应用研究,能够为处理不平衡样本 集分类问题的半监督学习算法的研究提供参考。 参考文献: [1]BLUM A,MITCHELL T.Combining labeled and unlabeled data with eo— training[C]//Proe of the l lth Annual Conference on Computational Learning Theory.[s.1.]:Springer,1998:92-100, [2]ZHOU Zhi-hua,LI Ming.Tri—training:exploiting unlabeled data U- sing three classiifers[J].IEEE Trans on Knowledge and Data En- gineering,2005,17(11):1529—1541. [3]NIGAM K,GHANI R.Analyzing the effectiveness and applicability fo CO—training[C]//Proe of the 9th International Conference on Infor- mation and Knowledge Management.2000:86-93. [4]周志华,王珏.机器学习及其应用[M].北京:清华大学出版社, 2007. f5]高嘉伟,梁吉业.非平衡数据集分类问题研究进展[J].计算机科 学,2008,35(4):1O-13. [6]刘胥影,吴建鑫,周志华.一种基于级联模型的类别不平衡数据分 类方法[J].南京大学学报:自然科学版,2006,42(2):148—155. [7]秦娇龙,王蔚.Bagging组合的不平衡数据分类方法[J].计算机 工程,2011,37(14):178—182. [8]韩敏,朱新荣.不平衡数据分类的混合算法[J].控制理论与应用, 2011,28(10):1485-t489. [9]李秋洁,茅耀斌,王执铨.基于Boosting的不平衡数据分类算法研 究[J].计算机科学,2011,38(12):224—228. [10]方景龙,王万良,何伟成.用于不平衡数据分类的FE—SVDD算法 [J].计算机工程,2011,37(6):157・161. [11]陈金坦,康恒政,杨燕,等.一种用于不平衡数据的分类算法 [J].山东大学学报,2011,41(1):96-101. [12]于重重,田蕊,谭励,等.非平衡样本分类的集成迁移学习算法 [J].电子学报,2012,40(7):1358-1363. [13]项贻强,李毅,周畅,等.桥梁结构在线健康监测预警系统I一 监测评估预警体系和模块设计[J].交通科学与工程,2009,25 (1):26-31. 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- igat.cn 版权所有 赣ICP备2024042791号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务