您好,欢迎来到爱go旅游网。
搜索
您的当前位置:首页金融行业的数据挖掘技术研究

金融行业的数据挖掘技术研究

来源:爱go旅游网
■名家观察■现代管理科学■2009年第8期

金融行业的数据挖掘技术研究

●李金迎

詹原瑞

摘要:数据挖掘就是利用各种技术从海量的数据中发现知识,它具有广阔的应用与前景。文章比较详尽概论总结了

数据挖掘的概念、方法、及应用。并且分析、归纳了数据挖掘在金融领域的应用,具体包括趋势预测、客户关系管理、金融犯罪侦测、风险识别与管理等。

关键词:数据挖掘;金融数据;预测;欺诈侦测;风险识别

我国金融行业是信息化起步比较早,相对比较成熟的。在全面实现电子化的过程中积累了大量的数据。这些数据背后隐含着大量的知识与规则。而多数机构并没有挖掘出这些知识与规则。甚至有的企业并没有意识到它的存在和价值,更谈不到挖掘与利用。

近几年随着金融市场的开放,外资金融机构的进入,多种金融创新将不断涌现,竞争也随之不断加剧。同时也不可避免的是金融行业面临诸多新的风险,这使得金融机构的经营管理既要进行管理上的创新、经营业务上的创新,又要及时的规避风险。数据挖掘技术是金融业继信息化技术之后的另一个创新点与重要的技术工具。

一、基本概念

随着计算机软硬件技术、网络技术等的飞速发展,各行各业的数据库中积累了大量的数据,而且每天还在急剧地增长,在这些海量的数据中隐藏着大量的、有用的知识,这些知识表现为关联、规则、趋势等。而传统地阅读或简单的数据检索,远不能够及时提取出那些不同层次的知识,数据的真正价值远没有被发现与利用。这不仅造成了信息的浪费,更重要的是企业失去商机。为了避免这种情况,减少损失,寻找商机,必须要有一种能分析大量数据的新型的数据分析技术,数据挖掘正是这样一种技术,它融和了数据库技术、人工智能、统计技术、机器学习等技术,它能够把海量的数据被自动地和智能地转化为有用的信息和知识。

数据挖掘(DataMining)或称为知识发现,也称为基于数据库的知识发现,是通过信息技术对大量的数据进行探索和分析的过程,在浩如烟海的数据中提取有用、有效的信息,发现有用的模式与规律。数据挖掘是指在对大量的企业历史数据进行探索后,揭示出其中隐藏着的规律性内容,并且由此进一步形成模型化的分析方法。

通过数据挖掘还可以建立起企业整体或某个业务过程局部的不同类型的模型。这些模型不仅可以描述企业当前发展的现状和规律性,而且可以用来预测当条件变化后可能发生的状况。这可以为企业开发新的产品和服务、甚至于为企业机构的重组提供决策支持依据。

数据挖掘技术往往与数据仓库技术紧密结合。数据仓输入层

隐蔽层

输出层

输入

输出

库是面向主题的、集成的、相对稳定的反映历史变化的数据集合。多数数据挖掘是基于数据仓库的,数据仓库为数据挖掘提供有价值的数据。

二、数据挖掘的主要技术

1.基于神经网络的方法。由于对非线性数据的快速建

模能力,基于神经网络的数据挖掘工具现在越来越流行。其开采过程基本上是将数据聚类,然后分类计算权值。神经网络很适合非线性数据和含噪声数据,所以在市场数据库的分析和建模方面应用广泛。

神经网络方法是模拟人脑信息加工过程的一种智能化信息技术。神经元是一个多输入单输出的信息处理单元,而且,它对信息的处理是非线性的图1是典型的神经元模型。

x1x2

……

wi1wi2win

Σ

θi

·f[]yi

xn

图1神经元模型

神经元的数学模型可用式(1),(2)表示。X=Σwixi-θ

i=1n

(1)(2)

y=f(X)

由多个神经元组成的神经网络见图2。

图2典型的神经网络

神经网络采用非线性动力学的方法实现系统,特别适合处理非线性特征的指标数据。基于神经网络的数据挖-14-

■2009年第8期■现代管理科学■名家观察

掘,具有对数据噪声处理比较优秀,对数据分布的要求不严格,分类能力比较优秀等优点。特别在分类方面,数据挖掘方法已在实际应用中表现出优异的性能。其分类准确性比传统的基于统计学的判别分析等方法高很多。神经网络方法用于信用风险评估也存在着需要改进之处,从认知的角度看,神经网络方法模拟人类的形象直觉思维,人们难以理解网络的学习和决策过程。无法对结果做出解释,并且网络的结构设计需要完全凭借经验进行,需要通过多次训练才可以得到可行的网络结构。

立性假设,联合分布可以分解为几个局部分布的乘积:

P(x1,x2,…,xn)=仪P(xi|pai)

i

从上式可以看出,需要的参数个数随网络中节点个数呈线性增长,而联合分布的计算呈指数增长,n个节点,每个节点的父节点数不超过k,则概率表的规模为O(n·2k)。网络中变量间性的假定是实现紧凑表示的关键。它大大降低了知识获取与推理的复杂度。

(3)基于规则和决策树的工具。大部分数据挖掘工具采用规则发现或决策树分类技术来发现数据模式和规则,其核心是某种归纳算法。这类工具通常是对数据库的数据进行开采,生产规则和决策树,然后对新数据进行分析和预测。这类工具的主要优点是,规则和决策树都是可读的。

分类树方法作为一种数据挖掘实现基于统计理论的非参数识别技术,不仅保持了多元参数,非参数统计的一些优点,而且克服了其不足,主要表现在:自动进行变量选择,降低维数;充分利用先验信息处理数据间的非同质的关系,并可有效地用于对数据的分类。

(4)基于模糊逻辑的工具。其发现方法是应用模糊逻辑进行数据查询、排序等。该工具使用模糊概念和“最近”搜索技术的数据查询工具,它可以让用户指定目标,然后对数据库进行搜索,找出接近目标的所有记录,并对结果进行评估。

(5)综合多方法。不少数据挖掘工具采用了多种开采方法,这类工具一般规模较大,适于大型数据库,包括并行数据库。这类工具开采能力很强,但价格昂贵,并要花很长时间进行学习。

(6)粗糙集方法。粗糙集方法是波兰数学家Z.Pawlak在1982年提出的。它是用上、下近似集来处理不确定问题。它不需要对数据取得先验知识,仅利用数据本身提供的信息,充分挖掘蕴含在数据中的信息。具体应用中通常采用粗糙集方法和其他方法结合使用,如利用粗糙集获得初始规则集,然后构造对应的神经网络模型。

三、数据挖掘的主要步骤

数据挖掘一般有以下几个主要步骤:

2.基于贝叶斯网络的方法。贝叶斯网络(Bayesiannetwork),又叫概率因果网络、信任网络、知识图等,是一种

有向无环图。贝叶斯网络用图形来表示变量间连接概率关系。结点表示:领域变量;有向边:结点间的依赖关系;对每一个结点都对应着一个条件概率分布表,该分布表指明了该变量与父结点之间的依赖关系。

因此,一个贝叶斯网络由两个部分构成:

BN=(S,P)

S={(Xj,Xi)|Xi∈X,Xj∈pai}P={p(Xi|pai)|Xi∈X}

(1)具有k个节点的有向无环图S。如图1,图中的节

点代表随机变量,节点间的有向边代表了节点间的相互关联关系。节点变量可以是任何问题的抽象;通常认为有向边表达了一种因果关系,因此贝叶斯网络也叫做因果网络。

有向图蕴涵了条件性假设,贝叶斯网络规定图中的每个节点Xi条件于由Xi的父节点给定的非Xi后代节点构成的任何节点子集,即如果用N(Xi)表示非Xi后代节点构成的任何节点子集,用Pa(Xi)表示Xi的直接双亲亲节点,则:P(Xi|N(Xi),Pa(Xi))=P(Xi|Pa(Xi))。

(2)与每个节点相关的条件概率表P。条件概率表可以用P(Xi|Pa(Xi))来描述,它表达了节点同其父节点的相关关系———条件概率。由图S和概率表P构成贝叶斯网络。它通过有向图的形式来表示随机变量间的因果关系,并通过条件概率将这种关系数量化,可以包含随机变量集的联合概率分布,是一种将因果知识和概率知识相结合的信息表示框架。

完整的概率模型必须具有表示所研究变量的联合分布的能力。完全的联合分布表需要指数级的规模,n个节点需要O(2n)规模的概率表;由于贝叶斯网络假定了条件性,因此只需考虑与该变量相关的有限变量,可以大大简化问题的求解难度,从而使得许多复杂问题得到可行的解决方案。由于独

1.定义问题。对目标有一清晰、明确的定义,也就是确

风险文化

风险策略

制度

人员

流程

环境

技术

x1x3

x4

x2

内部欺诈

外部欺诈

业务异常

系统失败

x5x6

损失

图4

基于贝叶斯网络的银行操作风险管理模型框架图3简单贝叶斯网络-15-

■名家观察■现代管理科学■2009年第8期

定需要解决的问题,这个目标应是可行的、能够操作与评价的。

是业务运营系统,并非为决策分析应用而建立,其数据的集成性、完整性、可访问性、可分析性都难以满足信贷风险分析的需求。为此,可以建立一套于业务系统的数据仓库,专门解决信贷分析和风险贤管理的问题。

图3显示了我们利用贝叶斯网络建立的银行操作风险管理系统框架。贝叶斯网络可以用来帮助识别风险因子、计算灵敏度与波动性、简化损失分布和基于情景的超额损失事件的生成。基于贝叶斯网络的操作风险模型的建立首先需要建立业务模型,接下来根据业务模型建立贝叶斯网络结构,利用历史数据或模拟数据来训练模型,得到条件概率分布,利用模型生产损失分布或操作风险的相关度量。

2.数据收集。大量全面丰富的数据是数据挖掘的前

提,没有数据,数据挖掘也就无从作起。因此,数据收集是数据挖掘的首要步骤。数据可以来自于现有事务处理系统,也可以从数据仓库中得到。

3.数据整理。数据整理是数据挖掘的必要环节。由数

据收集阶段得到的数据可能有一定的“污染”,表现在数据可能存在自身的不一致性,或者有缺失数据的存在等,因此数据的整理是必须的。同时,通过数据整理,可以对数据做简单的泛化处理,从而在原始数据的基础之上得到更为丰富的数据信息,进而便于下一步数据挖掘的顺利进行。

4.数据挖掘。利用人工智能、数理统计等各种数据挖

掘方法对数据进行分析,发现有用的知识与模式。整个过程的核心步骤。

3.市场趋势预测。数据挖掘技术可以进行数据的趋势

预测,比如金融市场的价格走势预测、客户需求的变化趋势等。

5.数据挖掘结果的评估。数据挖掘的结果有些是有实

际意义的,而有些是没有实际意义的,或是与实际情况相违背的,这就需要进行评估。评估可以根据用户多年的经验,也可以直接用实际数据来验证模型的正确性,进而调整挖掘模型,不断重复进行数据挖掘。

4.识别金融欺诈、洗钱等经济犯罪。金融犯罪是当今

业内面临的棘手问题之一,包括恶意透支、盗卡、伪造信用卡、盗取帐户密码以及洗黑钱等,严重威胁人们的财产及金融系统的正常运行。要侦破洗黑钱和其它金融犯罪,重要的是要把多个数据库的信息集成起来,然后采用多种数据挖掘工具寻找异常模式。发现短时间内,少数人员之间的巨额现金的流动,发现可疑线索。

五、结论

数据挖掘在金融领域具有广阔的应用,在目前在我国金融业则刚刚开始,有待于进一步的研究、开发、推广。我们应该重点研究数据挖掘技术在市场预测、价格走势、欺诈侦测、交易模式识别、客户关系管理等方面的应用。随着数据挖掘软件的成熟与金融行业信息化步伐的加快,数据挖掘技术定能在我国金融领域发挥其巨大威力,为提高银行、证券等企业的管理水平和竞争实力作贡献。

参考文献:

6.分析决策。数据挖掘的最终目的是辅助决策。决策

者可以根据数据挖掘的结果,结合实际情况,调整竞争策略等。

总之,数据挖掘过程需要多次的问题修改、模型调整、重新评估、检验等循环反复,才有可能达到预期的效果。

四、数据挖掘在金融业的应用

数据挖掘在金融领域应用广泛,包括:金融市场分析和预测、帐户分类、银行担保和信用评估等。这些金融业务都需要收集和处理大量数据,很难通过人工或使用一两个小型软件进行分析预测。而数据挖掘可以通过对已有数据的处理,找到数据对象的特征和对象之间的关系,并可观察到金融市场的变化趋势。然后利用学习到的模式进行合理的分析预测,进而发现某个客户、消费群体或组织的金融和商业兴趣等。

1.客户关系管理。数据挖掘可以进行客户行为分析来

发现客户的行为规律,包括整体行为表现和群体行为模式,市场部门可以理由这些规律制定相应的市场战略与策略;也可以利用这些信息找出客户的关注点及消费趋势。从而提高产品的市场占有率及企业的竞争能力。

数据挖掘能够帮助企业找出对企业有重要意义的客户,包括能给企业带来丰厚利润的黄金客户和对企业进一步发展至关重要的潜在客户。

2.风险识别与管理。可以建立一个分类模型,对银行

贷款的安全或风险进行分类。也利用数据挖掘技术进行信贷风险的控制。信贷风险管理主要包括:风险识别、风险测量、选择风险管理工具、效果评价。全部过程涉及到的信息包括相关商品市场状况、行业现状、行业发展、企业管理、人事、财务状况等一系列内容,信息的庞杂造成手工评估、管理的难度大大增加。而现有的银行信贷系统一般都1.JiaweiHan,MichelineKamber.范明,孟小峰等译.数据挖掘:概念与技术.北京:机械工业出版社,2001.

2.MichaelJ.A.Berry,GordanS.Linoff

—客户关系管理的科学与艺术.北京:中国财数据挖掘——

政经济出版社,2004.

3.薛薇.数据挖掘概述.统计与精算,2001,(3).

4.蒋理,宋宝丽.谈数据仓库及其在商业银行的应用.统计与信息论坛,2000,15(6):60-62.

5.訾虎,叶红云,李宝传,王昆.利用数据挖掘技术开展金融CRM.中国金融电,2004,(10):29-31.

6.惠轶.数据挖掘在信用风险管理中的应用.价值工程,2004,(2):123-125.

7.何俊,温家明.数据挖掘及其在银行业的应用.华南金融电脑,2002,(6):50-55.

作者简介:詹原瑞,天津大学管理学院教授、博士生导师;李金迎,天津大学管理学院博士,清华大学公共管理学院博士后。

收稿日期:2009-06-22。-16-

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- igat.cn 版权所有 赣ICP备2024042791号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务