Data Base Technique·数据库技术 改进的决策树ID3算法及应用 本文利用数据挖掘决策树ID3 算法,以校园一卡通数据库中数 据挖掘在高校贫困认定领域的应 用为实例,通过对简单高效的ID3 算法的改进,先排除掉其他因素 的影响,再构建最优决策树,从 而加强数据结果的可靠性。 【关键词】ID3算法构建决策树数据挖掘 恩格尔系数 数据挖掘即在海量数据中通过特殊算法, 从而挖掘出有效的、先前未知的信息,利用数 据库、人工智能和数理统计等多方面的技术, 是一类深层次的数据分析方法。常用的数据挖 掘算法有很多,譬如CART分类算法、Naive Bayes朴素贝叶斯算法、EM最大期望算法等, 不同的算法在数据挖掘领域用处也不尽相同。 针对高校管理过程中生成的海量数据,可以对 其挖掘利用,典型的即提取利用学生校园一卡 通中的交易数据,对比分类,应用于高校贫困 评定中。众所周知,高校在校生绝大部分的消 费均在校园内完成,而随着数字化校园的构建, 校园一卡通已成为高校内部消费购物的唯一途 径,因此校园一卡通的充值金额、刷卡次数等 可以在很大程度上衡量一个学生的消费水准, 从而判定其财富程度。本文提出用决策树1D3 算法处理校园一卡通中数据,但ID3算法仍存 在许多弊端,因此提出采用改进的决策树ID3 算法。 1决策树ID3算法的描述 决策树ID3算法,它是一种通过对一个 训练样集Es递归构造决策树的算法,在这个 训练样集里选择一个属性划分类别,Es属性 的取值为C1、C2、C3…Cn概率值值为P1、 P2、P3…Pn,定义一个函数称作信息值或熵: Info([C1、C2‘·‘Cn])=Entropy(P1、P2‘‘‘ Pn)=一Pllog2P1一P21og2P2一…Pnlog2Pn,若使 用另一个样集里的属性M对样集Es分组,那 么新的信息值,定义为: Entropy(Es,M)= (1Esil/lEs1) Entropy(Es),M相对于Es的信息增益Gain (Es,M)定义为:Gain(Es,M)=Entropy (Es)一Entropy(Es,M),且信息增益越大, 训练样集越容易实现简单分类。虽然利用上述 的ID3算法可以很简单方便生成一棵决策树, 但是使用ID3算法仍然存在许多问题,最典型 问题即ID3算法只针对于当前属性值取最优分 类,忽略全局其他因素【4】,所以需要对ID3 文/葛璐瑶 表1:学生基本信息表 贫困 非贫困 贫困 贫困 贫困 非贫困 图1:决策树 算法进行进一步的改进,既要利用ID3算法的 各个学生的附加信息,如家庭收入水平、学生 简单方便与直接,又要从长远考虑,综合其他 每月生活费用等,表1为部分学生的每个月的 因素生成最优决策树。因此,在原ID3算法的 基本信息,包括学生的家庭收入水平、学生生 基础上加以改进,即判断最优分类属性时不仅 活费用总额、校园卡充值金额、校园卡交易次 考虑各个属性的信息增益,同时考虑其他干扰 数、贫困判定结果,这些基本信息是高校贫困 影晌因素。 认定中有着重要意义的数据信息,在此信息的 2特征提取实例 基础上,利用数据挖掘中决策树ID3算法,生 成一棵简易决策树。 电子支付平台是面向在校师生提供的一 2.2生成决策树 系列电子支付服务的网络平台,在高校管理过 程中,电子支付平台会生成海量数据,这些数 通过学生基本信息表,选择“贫困判 据含有潜在的意义,需要我们挖掘发现其中的 定结果”为划分属性,训练样本含有7个 隐含信息,以学生校园一卡通数据库中的信息 “贫困”和5个“非贫困”,对应于信息值 为例,我们可以选取其中学生校园卡充值交易 Info([7,5])=一(7/12)lo&(7/12)一(5/12)log2 额、校园卡使用次数最为数据源,经过多次实 (5/12)=O.98。 验测试得到划分标准,应用于高校贫困学生认 在评估“家庭收入水平”属性时, 定中。具体过程如下: 对应于“贫困”和“非贫困”类的个数分 2.1确定数据挖掘对象 别为[4,1]、[2,2]、[2,1],他们的信息值分 别是:Info([4,1])=0.72,Info([2,21)=l, 为了更好的认定学生贫困程度,不仅调 取学生的校园一卡通交易数据,同时走访调查 <<下转154页 Electronic Technology&Software Engineering电子技术与软件工程·153 数据库技术·Data Base Technique 云计算条件下的大数据挖掘内涵及解决方案 文/饶正婵蒲天银 1大数据挖掘技术和传统数据挖掘技术 在大数据时代,一方面依 1.2处理对象 大数据挖掘技术和传统挖掘技术在处理 对象上也有所不同,这主要是和两者技术产生 托大数据丰富的资源储备和强大 的计算机技术优势促进产业的升 级和崛起,但是大数据的复杂性 使得对于有价值信息的挖掘变得 困难,尤其是当传统的数据挖掘 技术无法满足用户需求时,就需 要开发一种新的大数据挖掘技术 来解决当前数据挖掘上的困难。 本文将对传统数据挖掘技术和云 计算条件下的大数据挖掘技术进 行对比,然后进一步探讨大数据 挖掘的内涵,提出了基于云计算 的大数据挖掘体系架构,最后以 Hadoop大数据挖掘平台为例,分 大数据挖掘技术指的是从体量庞大的数 据堆中将有价值的信息或者知识提取出来,然 后通过服务的形式提供给用户。和传统数据挖 掘技术相比,两者的目的一样,都是为了获取 有价值的信息,但是两者的技术发展背景、处 的背景有关。基于互联网发展而诞生的传统数 据处理,只是对某个范围内信息管理系统所产 生的数据进行处理,虽然也包含用户产生的主 动数据,但依旧是以被动产生的结构化数据为 主要处理对象。而大数据挖掘技术是在云计 理对象以及挖掘的深度和广度有所差异。 1.1技术发展背景 随着科学技术的发展以及对于有价值信 息需求的提升,传统数据挖掘和大数据挖掘都 获得了一定的发展。但是传统数据挖掘产生和 算、物联网以及移动互联网的背景下诞生的, 所以其处理对象中的数据除了信息管理系统中 的数据、Web系统用户产生的数据外,也包括 感知信息系统自动生成的仿真数据。也就是说 大数据挖掘技术所需要处理的对象体量庞大、 析大数据挖掘内部工作的流程, 并分析大数据挖掘技术的优势和 所面临的挑战。 发展的背景是互联网时代和数据库时代,其所 需要处理的数据体量没有大数据挖掘技术时代 数据类型复杂,采集范围更加广泛而全面,数 据处理起来也比较及时快速。但是大数据挖掘 技术在进行数据挖掘处理时对精确度要求并不 高,所以会出现数据冗余度和不确定性提高的 问题。 1.3挖掘的程度 的数据体量庞大,数据信息的复杂程度也没有 大数据挖掘时代的数据复杂。而大数据挖掘技 术产生和发展的背景是云计算、物联网和移动 互联网,该技术是基于大数据特征和为了解决 【关键词】云计算大数据挖掘案 内涵解决方 当前系统所面临的问题而诞生的,是基于云计 算进行相关技术的集成来实现数据挖掘的,在 开发和应用上还处于不断探索与发展阶段。 传统数据挖掘和大数据挖掘技术在对数 据进行分析处理时的广度和深度也不 样。随 <<上接153页 Info([2,l】)=O.92,那么“家庭收入水平”相对 于“贫困判定结果”的信息值为: Info(【4,l】,[2,2】,[2,1】)=(5/l 2) Info([4,1])+(4/1 2)Info([2,2】)+(3/1 2) 定为食物支出金额,把学生生活费用认定为总 支出金额,利用下式: 改进的恩格尔系数 =校园卡充值金/学 生生活费用总额 参考文献 [1】严坤.数据挖掘技术研究….电脑 迷,2O1 7(1O):185. Info([2,1】)=0.86,那么“家庭收入水平”相对 于“贫困判定结果”的信息增益为: 从公式不难看出,系数越小,说明学生 越富裕,贫困程度当然越小。 2.3.2添加判定系数的判定方案 因此在利用决策树ID3算法判定学生贫 【2]光峰,姚程宽,卢灿举,曹立勇,詹拈. 数据挖掘经典算法研究[J】.商丘师范学 院学报,2O16,32(03):44-47. Gain(家庭收入水平)=Info([7,51)一 Info([4,1],[2,2】,【2,l】)=O.12,同理可以求出其他 属性的信息增益:Gain(学生生活费用总额) =[3李会,胡笑梅.决策树中I3]D3算法与 C4.5算法分析与比较[J】.水电能源科 学,2008(02):129-132+163. 困程度时,可以加入恩格尔系数,给定一个贫 困程度的标准值五,计算每个申请贫困的学生 的改进恩格尔系数A.。 0.41,Gain(校园卡充值金额)_0.06,Gain(校 由上述计算得“学生生活费用总额”信 园卡交易次数)=O.30 息增益值最大,因此选择“学生生活费用总额” 决策树。 2.3改进ID3算法 [4]杨洋.决策树103算法及其改进[J].软 件导刊,2016(08):46—48. 若A.sA,则非贫困,不予考虑 若A.>五,则初步判定贫困,构建决策树, [5】田丽.智慧校园环境下的校园一卡通建 为决策树根节点的划分属性,创建如图l所示 确认最终结果。 设[J】.华东师范大学学报(自然科学 版),2015(S1):5 30—5 35. 3结束语 虽然本文利用改进的ID3算法对学生贫 [6]刘星.恩格尔系数、基尼系数与经济增长 关系研究[J].统计与决策,2014(02):87— 89. 2-3.1恩格尔系数 恩格尔系数(Engel’S Coeficifent)指居民家 庭中食物支出占消费总支出的比重,恩格尔系 困程度认定过程增加了限制条件,使判定过程 更可靠,但是贫困认定并非一成不变,在认定 数是用来衡量家庭富足程度的重要指标。 额 过程中,每个学生的实际情况可能有所不同, 认定选项也不是绝对有效的,因此上述算法的 作者简介 葛璐瑶(1990一),女,山东省五莲县人。硕 士学历。助教。研究方向为计算机应用,数据 恩格尔系数A=食物支出金额/总支出金 提出只能起到辅助性作用,真正的判定还需要 结合更多方面,因此,在判定过程中仍然需要 挖掘,推荐系统,校园一卡通。本文利用恩格尔系数的作用,在判定贫 添加更多因素及条件,从而使判定结果更加有 效可靠。 困程度过程中可以把校园一卡通的充值金额认 作者单位 聊城大学东昌学院 山东省聊城市2 52 000 154·电子技术与软件工程Electronic Technology&Software Engineering