在我们的日常生活中,应用多元统计分析有着很广泛的用途,在学习过程中,我比较感兴趣的一点是判别分析中的距离判别法。
课堂上讲到,判别分析即根据历史上划分类别的有关资料和某种最优准则,确定一种判别方法,判定一个新的样本归属哪一类。
判别分析应用之广泛可以说是随处可见。例如,选取高发展水平、中等发展水平的国家各五个作为样品,可判断所给的其他国家是何种发展水平。又如,在天气预报中,我们有一段较长时间关于某地区每天气象的记录资料(晴阴雨、气温、气压、湿度等),现在想建立一种用连续五天的气象资料来预报第六天是什么天气的方法。这些问题都可以应用判别分析方法予以解决。由此可见判别分析的重要性已经与我们日常生活的息息相关。
将上述的生活问题转化为较为专业的数学语言是这样的:设有n个样本,对每个样本测得p项指标(变量)的数据,已知每个样本属于k个类别(或总体)G1,G2,GK中的某一类,且它们的分布函数分别为F1x,F2x,我们希望利用这些数据,找出一种判别函数,,Fkx。使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来,并对测得同样p项指标(变量)数据的一个新样本,能判定这个样本归属于哪一类。
欧式距离是我们所熟知的一种距离,即我们通常所说的两点之间的距离,但是有很多情况下欧式距离是不适用的,在解决某些实际问题的时候,它显得很死板,并且会受到量纲变化的影响,所以就有了
马氏距离的产生。
马氏距离是这样定义的:设X和Y是来自均值向量为μ,协方差为Σ(>0)的总体G中的p维样本,则总体G内两点X与Y之间的马氏距离定义为 D2(X,Y)(XY)'1(XY)………………(1) 定义点X到总体G的马氏距离为
D2(X,G)(X)'1(X)………………(2),显然,欧氏距离是马氏距
离的一种特殊情况,I。
距离判别法正是是根据马氏距离来判别的,两个总体的判别规则如下:XG,若D2(X,G)D2(X,G),而通常,我们是通过计算两个马
212氏距离的平方差来判断的。经计算可得
D2(X,G1)D2(X,G2)2(X)'2(X)',其中,
XG1,若D2(X,G1)D2(X,G2)(12),1(12)。而在很多实际问题中,总体的均值和方
12差通常是未知的,这时需要用到数理统计中学过的知识进行无偏估计。
(1)(1)(1)(2)(2)(2)GX,X,XX,X,X112n12n设是来自总体的一个样本,而是来12自总体G2的一个样本,则1和2的无偏估计为
X(1)1n1(1)(2)1n2(2)Xi,XXi,的联合无偏估计为n1i1n2i1n1ˆ(S1S2),其中,S(Xi()X())(Xi()X())',1,2,此时,n1n22i1再用前面所述的判别法进行判别。
学习到这部分知识的时候,首先想到的是去年的社会实践,当时需要利用所给数据进行天气的预测,当时用的方法是用matlab将数据拟合成了曲线,然后根据曲线的走势来预测天气,显然现在学到判别
分析要比拟合图形准确的多,用SPSS软件来实现。
根据所学知识以及在社会实践中的经验,我认为,判别分析的大体步骤应该是这样的:设有G1,G2,Gk个总体,从不同的总体中抽出不同的样本,根据样本→建立判别法则→判别新的样品属于哪一个总体。当然,这只是根据我们所拥有的天气的数据进行分析的步骤,不同的实例步骤肯定是不同的。
判别分析应该注意以下事项:样本中必须有所有要判别的类型,分类必须清楚,不能有混杂。要选择好可能用于判别的预测变量。这应该是最重要的一步。当然,在应用中,用于判别的预测变量应该是比较明显的。要注意数据是否有不寻常的点存在。像我们的天气数据中,某一天的温度突然升高或降低。还要看预测变量中是否有些不适宜的。这刚好可以用到本学期SAS课上学过的单变量方差分析来验证。
判别分析是为了帮助我们对事物进行正确的分类,但应该要注意使用尽可能少的预测变量来达到这个目的。使用较少的变量不至于使结果太混乱,同时也能简化我们分析问题的步骤。
因篇幅问题不能全部显示,请点此查看更多更全内容