78 露 二二 2013年・第9期 本文通过决策树C5.O算法在学生购买手机上的运用,以 决策树的形式快速地分析出哪些因素将会显著影响到学生是 量,是否购买(T1)为输出变量。 利用数据挖掘软件SPSS Clementine实现决策树算 否购买,实现了通过掌握学生关键信息来提高商家对学生的 营销针对性。通过了解到手机用户信息的重要性和商家提供 Clementine使用图形象征的方法,通过拖拉鼠标和连接屏 功能节点.这些节点提供了数据接入、数据操作、数就 化、机器学习以及模型分析,模型的组成是从一个托盘q 合适的节点,并放置在屏幕上再连接各节点。利用 不同产品的服务性,选择出一种更加合理的手机产品的营销 策略,不断优化资源配置,提高销售率。 决策树是对数据进行分类,以此达到预测的目的。先根据 训练集数据形成决策树,如果该树不能对所有对象给出正确的 分类,那么选择一些例外加入到训练集数据中,重复该过程一 直到形成正确的决策集。决策树由决策结点、分支和叶子组 成 决策树中最上面的结点为根结点,每个分支是一个新的决 策结点.或者是树的叶子。每个决策结点代表一个问题或决 策,通常对应于待分类对象的属性。每一个叶子结点代表一种 可能的分类结果。沿决策树从上到下遍历的过程中,在每个结 点都会遇到一个测试.对每个结点上问题的不同的测试输出导 致不同的分支,最后会到达一个叶子结点。这个过程就是利用 Clementine实现C5.0算法的过程是首先建立C5.0的数据流。 l所示。 图1 C5()数据流 通过C5.0算法将信息增益最大的特征“是否购买”中 决策树进行分类的过程,利用若干个变量来判断所属的类别。 一根,再根据递归调用的建树算法,求出下面的叶节点, 应的分支只含正例或是反例,根据计算出的节点根和叶 得到的决策树,如图2所示。 、C5.0算法 决策树是运用于分类的一种树结构,其中每个节点代表对 某个属性的一次测试,一条边代表一个测试结果.叶子代表某 个类或者类的分布,最上面的节点是根节点。决策树方法通常 用来形成分类器和预测模型,具有建立速度快、精度高的优 点。它通常包括树的生成和树的剪枝两个部分。决策树经典算 法是IDa算法,C5.0算法是在ID3算法的基础上发展起来的,它 是计算每个属性的信息增益率,并选取具有最高信息增益率的 属性作为给定集合的测试属性。它比采用信息增益法(IDa算 法)要更好.主要是克服了IDa算法选择偏向于取值多的属性的 图2 C5.0的模型结果 不足 对被选的测试属性创建一个节点,并且以该节点的属性 标记,对该属性的每个值创建一个分支,以此划分样本。其中 从图2中可以看出,实验结果得到的是一颗两层决策} 买与不购买的人数分别为ll*n9人,相应的百分比为57 算法应用到信息熵、条件熵、信息增益及信息增益率等概念, 信息增益率反映的是信息消除随机不确定性的程度。 二、决策树算法在手机购买中的应用 42.1%。决策树的第一个最佳分组变量是年龄段,并以此 叉树;年龄段节点下的最佳分组变量为性别,该节点为I1 点,预测结果为购买(众数类别)。从实验结果看,年 学生是否会购买该款手机的最关键因素,其次是学生的十 学生的在校综合评价指数、学生的家庭人均收入对是否 影响很小。 (下转5 本文收集了某高校大学生购买某款手机的有关信息,数据 集中包含了l9名学生数据,其中性别(T2)、家庭年均收入 (T3)、在校综合评价指数(T4)、年龄段(T5)作为输入变 技术创新 (三)压裂施工优化 51 井筒弯曲摩阻和液体滤失特性;通过加入lm 的支撑剂段塞测 试,能初步了解地层裂缝对支撑剂的压力反应,从而能为主压 裂设计提供调整依据。 (1)前置段塞工艺。前置液阶段加入了砂比为5%~15%的 (4Il一70)目的支撑剂1.5方,目的是降低孔眼摩阻、近井地带弯 曲效应.还可以通过前置段塞进入地层后地面压力变化,进一 通过小型压裂后运用PT软件进行分析,地层破裂压力梯度 0.017MPa/m,摩阻系数0.27,储层裂缝不发育。 (二)主压裂 步认识地层吸砂能力.为后续加砂阶段提供参考依据。 (2)自生氮气助排工艺。为了提高压裂液的返排速度和返 排率,压裂施工前先注入自生氮气助排剂,助排剂在地层条件 下能够发生化学反应,产生大量的氮气.压后放喷时能够加速 压裂液的返排。 (3)防水锁工艺。该井渗透率低于1()毫达西,压裂液进入 地层后很容易形成水锁效应,增加压裂液返排阻力,导致压裂 液污染地层影响压裂效果。通过在压裂施工前注入一定量的防 通过小型压裂分析,认为该井地层滤失低,裂缝不发育, 运用PT软件进行模拟后将施工前置液用量减少3()方,施工时最 高压力80MPa.排量5.2m /min最高砂比3s%,加入4Il一7()目陶粒 3()方,30—5()目陶粒4(1方,加砂强度达N.s.6m‘/m。平均砂比控制 在2l1%, l』 【I 嗣 墨= I 一i\ ~} -—J I y_、L,一广 l j I il ; 【 { ,’}广呵一 一! ;L/ I【l ,f f】 水锁剂,能够降低界面张力N2~3mN/m,提高压裂液的返排效 果。 Il=璺置苎 (4)裂缝监测工艺。通过裂缝监测,可以验证设计缝长和 实际缝长是否吻合,通过压裂反馈分析压裂设计是否合理,提 高对该地区的储层的认识。裂缝方位的监测可以为该区块后续 开发过程中井网布置提供参考。 (5)连续加砂工艺。井下设计了一种支撑剂储存没备砂 塔,该装置能根据现场砂量要求进行组装,最大储存砂量能达 到1()0方,该装置改变了以往大砂量施工中现场砂罐车切换过程 时支撑剂加入波动的情况,实现了真正的平稳连续加砂。 三、现场应用 (一)小型压裂测试 ^ I l l, IJ 『 l 主压裂施工曲线 (三)压后情况。 压裂裂缝监测结果:方位为北东向107度,半缝长约240— 250m,裂缝高度约40m,裂缝近于直立。 该井压前抽汲液面29()Ilm.日产油小于0.1方,压后日抽汲 液量17方左右,油量达到5方厌。 四、结论 (1)通过优化设计,在XWx6井运用大规模压裂工艺改善 了低渗储层开发效果。 (2)通过优化支撑剂组合能提高支撑剂在裂缝中的有效铺 置,提高压裂效果。 (3)该井的成功实施为Js油田在北部湾盆地进一步勘探开 发提供了技术支撑。 小型压裂施工曲线 为了加强对储层物性的认识,主压裂之前实施小型压裂, 液体为3%的氯化铵水溶液和羧甲基压裂液。先使用3%的氯化铵 溶液进行升降排量测试,随后停泵进行压力降测试,压力平稳 后用压裂液进行加砂压裂。小型压裂测试过程中,通过3%的氯 【参考文献】 【1 J黄广恩.仿水平井压裂技术在樊142块的应用.内蒙古石油 化工.2()11(4):132—133 【2】金智荣,郭建春,赵金洲.支撑裂缝导流能力影响因素实验 研究与分析.2(1l17,3(1(5):36—38,41 化铵注入阶段测试.求取储层闭合压力和分析拟合储层有效渗 透率;通过羧甲基瓜胶液注入阶段测试分析射孔孔眼摩阻、近 (上接78页)三、结论 【2】Margaret H Dunham.数据挖掘教程【MJ.北京:清华大学出 版社,20l0 决策树C5.0的理论清晰。方法简单,学习能力较强,它适 于处理大规模的学习问题。本文通过C5.0算法在学生购买手机上 的运用,以决策树的形式快速地分析出哪些因素将会显著影响 f3】薛微,陈欢歌.数据挖掘方法及应用lM1.北京:电子工业出 版社.2011 到学生是否购买,实现了通过掌握学生关键信息来提高商家对 学生进行有针对性的营销方案,实验结果验证了算法的可行性 【4】漆昊晟,欧阳群.数据挖掘技术在企业人力资源管理中的 应用IJ】.企业经济,2[)12(1):78—80 I5l周剑锋,阳爱民,刘吉财.激于改进的C4.5算法的网络流量 分类方法UJ.计算机工程与应用,2012(5):71—74 f6】石振华.基if-&策树算法的银行信用评分U J.赤峰学院学报 (自然科学版),2012(1):75—76 和有效性。 【参考文献】 【1】陈文伟.数据仓库与数据挖掘教程(2版)IM】.北京:清华大学 出版社.2OO9