58 福 建 电脑 2011年第7期 金融领域中的数据挖掘应用探索 王朔,刘俊,李润平、 (武汉大学计算机学院湖北武汉430072) 【摘要】:随着金融领域的信息化进程的快速发展,大规模的金融数据集成为商业领域的“金矿”。数 据挖掘技术通过对大规模数据的处理和分析,从而为金融决策提供了技术支持。本文分类介绍了数据挖掘 中的常用技术,并对当前金融领域的热点研究,结合数据挖掘方法,进行了技术上的分析与探索。 【关键词】:数据挖掘金融聚类CR.M 标准将信用等级按最高到最低排列.以推断出贷款申 当今金融正处于信息化的时代.金融数据越来越 请者的信用等级和是否对其发放贷款。分类是找出一 丰富。如何有效分析金融数据,充分发挥金融数据的商 个类别的概念描述。它代表了该类数据的整体信息。我 1.弓l言 ‘・ 业价值.正是金融业迫切需要解决的问题。方兴未艾的 们通常通过规则或决策树模式表示分类的过程。一个 数据挖掘技术.正是用于解决大规模数据的处理和有 类的特征描述分为特征描述和辨别性描述.特征描述 是对类中对象的共同特征进行描述.而辨别性描述是 效利用的问题 数据挖掘是指从大型数据库中提取人们感兴趣的 对两个及以上类之间的区别进行描述。二者的区别在 知识.这些知识是隐含的、事先不知的、潜在有用的 于,特征描述允许不同类具有共同特征,而辨别性描述 信息。这些被揭示出的有用的信息,可以为决策、市场 对不同类不能具有相同特征。为了使数据描述更加清 策划和金融预测等方面提供依据。 晰,更多时候我们使用辨别性描述。 2.数据挖掘的常用技术 2.4.异常检测 目前.我们经常使用的数据挖掘相关技术主要包 除了正常数据通过聚类和分类的方法进行处理之 括:关联分析、聚类、分类、异常数据挖掘、时序模式发 外,我们也同样应该关注数据中存在的异常情况。即异 常数据的检测。异常数据主要包括分类中的反常实例. 现。它们在金融领域有着广泛的应用。 2.1.关联分析 模式的例外.观察结果对于模型预测的偏差。以及量值 数据关联是数据库中存在的一类重要可被发现的 因时问的变化。由于通过数学分析进行预测的模型往 知识。若两个或多个变量的取值之间具有某种规律性。 往不能完全符合实际情况.而其中不完全符合模型的 则称为关联。关联分析的目的在于找出数据可以.中隐 数据即异常数据就提供了改进模型的方向。通过寻找 藏的数据项之间的相关性。例如,在投资分析组合之 观察结果与参照对象之间的差别.可以更好地改进现 中.同类型股票的关联度往往很高.在进行投资组合选 有模型,从而发现许多意想不到的新知识。在金融领 择的时候往往会规避选择同类型股票以降低资产组合 域,识别异常数据可以发现信用卡诈骗、股市中股票的 的风险系数。而不同类型股票的关联度并不如同类型 操控行为。欺诈贷款等金融违规行为。从而为净化金融 股票的关联度明显。通过关联分析找出它们之间的关 市场予以有力支持 系.而投资者可以根据相关度进行决策以达到在维持 2.5.时序模式 基本收益的基础之上尽量降低风险.获得最佳投资组 时序模式是时间序列中搜索出重复发生概率较高 合。 的模式。时序模式更加注重时间对于数据变化的影响。 2.2.聚类 例如,在证券市场中。往往具有相似波动规律的股票. 数据库中的数据可以划分为一系列有意义的子集 利用相似时序查找这类股票或者寻找在历史上具有相 (类)。在同一类别中,个体之间的距离较小,不同类别 似波动的股票.可以在一定程度对该类股票在之后一 中的个体之间的距离较大。聚类方法通过建立宏观概 个时间段内的走势进行预测。以达到投资避险增值的 念的方式增加人们对数据的认识.其主要包括统计分 目的。 析方法,机器学习方法,神经网络方法等。 3.金融领域中的数据挖掘应用 2.3.分类 在现代金融行为中.通过数据挖掘技术的综合应 分类是数据挖掘中应用最普遍的任务模式。例如. 用,可以有效利用大规模的商业数据.在金融数据中挖 判断资产信用等级最常用的方法就是通过相应的数据 出“金矿” 2011年第7期 3.1目标客户的数据挖掘 福 建 电脑 2)计算n个类中两两之间的距离 59 3)合并距离最近的两类 CRM)是现代营销的重点。它是企业利用计算机技术实 4)计算新类与各类间的距离.若类的个数不满足 现对客户的整合营销.是以客户为核心的企业营销的 阈值则重做3) 技术实现和管理实现.目的是为了吸引和留住有用的 5)输出聚类结果 客户。 因此.利用聚类技术,可以对金融投资作出预测和 客户关系管理可分为四个主要方面:客户获取、客 判断。如证券领域,可对股票的行业因素、收益性、公司 户细分、客户赢利能力分析与客户的保持。数据挖掘在 成长性等基本面进行考察.建立起全面的评价指标体 客户关系管理fCustomer Relationship Management. 上述领域都能起到显著的作用 系。 神经网络是这一领域中最为常用的方法。它基于 聚类可以衡量股票的相似程度.根据上述算法得 先前的观测数据组.通过网络节点的弧线相连,建立了 出股票的层次聚类结果。进而使投资者准确地了解和 个关系系统。它是一种模范动物神经网络行为特征, 把握股票的总体特性。判断股票的发展潜力。确定投资 一进行分布式并行信息处理的算法数学模型。神经网络 范围和投资价值 通过反复的过程,实现对学习数据进行正确的分类。它 详细而言.聚类指标分为行业分析指标和公司业 的过程如下: 1)收集数据:收集与决策相关的有用的数据 2)训练和测试数据:数据集分为两部分,一部分用 括盈利能力、偿债能力和资产管理能力等.它能反映公 绩评价指标两类。行业指标包括每股收益、净资产收益 率等,这是股价变动的重要因素。公司业绩评价指标包 于神经网络的学习。计算输入弧的加权值。另一部分作 司的业绩和成长能力。 为测试集,用于推断学习效果。 4.结语 3)选择、训练和检测网络:依靠神经网络软件,调 在这个信息化的时代中.数据挖掘技术正不断推 整中间层节点数.转移函数和学习方法等,不断重复, 动着金融行业的发展。在这个领域中.数据挖掘可以应 进行学习集的分类.如果达到了预期的容忍度,表示应 用子客户关系管理.金融投资预测判断等多个相关领 用成功。 域之中。大大提高了金融市场的效率。作为在日益开放 神经网络可以通过模型函数.比如客户离开函数 的金融市场中分析客户数据的基础,我们相信。数据挖 等,基于公司的预期值,来判断哪些客户是目标客户, 掘技术将会更加广泛的作用于金融产品的研发与变革 哪些客户可以保持等 3.2聚类分析与金融投资 聚类分析的目的.是根据研究的数据之间存在不 之中,成为金融市场发展不可或缺的因素之一。 参考文献: 1】马超群,兰秋军,陈为民,《金融数据挖掘》,北京,科学出版 同程度的相似性.根据数据属性.把相似程度不同的数 【社.2007 据分类。 2]David Olson.Yong Shi,Introduction to business data mining, 层级聚类是对给定的数据集按层次分解.形成一 [棵以数据子集为节点的树。凝聚法是其中常用的算法。 【3】张娴,数据挖掘技术及其在金融领域的应用,《金融教学与研 它以类间距离为尺度.不断把最邻近的类组合成一个 McGraw—Hill,2005 新的类.直到聚成一类或者达到了设定的阈值。其基本 【4】曹杨,数据挖掘在电子商务客户关系管理中的应用研究,上 算法如下: 海大学硕士学位论文.2008 1)构造n个类.每个类只有一个数据点  ̄}2003,4 (上接第47页) 中起到越来越大大的作用。前景非常美好。 参考文献: 【1】刘世彬,刘兴彦.虚拟现实技术在辅助课堂教学中的应用研 究U].网络与信息,2009(9) 【2】叶华乔.虚拟现实技术在教育教学中的应用田.武汉船舶职业 技术学院学报.2007(31 【3】张栩之,孙立新.探究虚拟现实技术在教育教学中的应用Ⅱ】 l中国电子商务.2011(2)