题 目: 文本挖掘方法研究
《商务智能技术》课程报告
目 录
摘要 ..................................................... 1 一、概述 ................................................. 3 二、国内外研究现状与动态 ................................. 3 三、主要研究内容 ......................................... 5 1、文本挖掘流程 ....................................... 5 2、文本特征表示 ....................................... 1 3、文本相似度度量 ..................................... 4 4、改进的文本挖掘方法 ................................. 8 5、文本挖掘方法评估 .................................. 10 四、总结与建议 .......................................... 11 五、主要参考文献 ........................................ 12
《商务智能技术》课程报告
摘要
如今互联网世界大数据日益发酵,各种数据一起奔涌而出,其中半结构化和非结构化数据所占比例明显增加,这是由于在信息传递的载体中文本发挥着越来越重要的作用。与之相对应,文本处理得到了众多学者和商业应用的关注。通过文本挖掘可以让用户在浩如烟海的文档中找到隐藏的信息,完成文本分类和聚类等各项功能,通过机器学习等自动化方法简化处理流程提高准确率和精确率。
本文首先介绍了向量空间模型的文本表示和基于统计学及信息量的特征选择方法,然后介绍了基于本体的文本语义相似度度量方法,主要有基于信息量的概念相似度计算方法和基于本体结构的概念相似度计算方法,紧接着针对文本分类和聚类两个领域的机器学习方法进行分析,对其存在的问题提出了改进意见。最后介绍了这两类挖掘方法的评估标准,并提出了文本挖掘存在的问题及建议。 关键词:文本挖掘,特征选择,本文相似度,文本分类,文本聚类
1
Abstract
Nowadays big data is increasingly across the entire Internet. Various data surges up together of which the proportion of half structured and unstructured data has increased because texts play an more and more important role in the information transfer process. As a result, the text processing attracts the attention of many researchers and enterprises. With the help of text mining users can find voluminous information hidden in the document, finish the text classification and clustering and other functions. By the means of automation such as machine learning method can simplify process and improve the rate of accuracy and precision.
First part of the paper introduces the vector space model of text representation and feature selection method based on statistics and information, secondly introduces the text semantic similarity measurement method based on ontology, which are mainly based on the concept of information similarity calculation method and based on the concept of ontology structure similarity calculation method. Then the paper analyze two methods of machine learning of text classification and clustering to find out the existing problems and put forward the improvement opinion. Finally introduces the criteria for the assessment of the two types of mining method, and puts forward the problems existing in the text mining and suggestion.
Key words: text mining, feature selection, text similarity, text categorization, text clustering
一、概述
互联网的发展给人们提供了更快捷地了解世界,更高效地完成工作,更科学地进行组织的方式,用户通过文本、音频、视频等显性的表达形式完成与互联网的交互,尤其以文本为主。但由于文本的非结构化特征,有用信息需要进行深度挖掘与过滤才能为人们所用。随着数据挖掘领域的发展,机器学习方法开始探索在文本挖掘的应用。由于数据挖掘的对象是以数据库的结构化数据为主,并利用关系表等存储结构来发现知识,而由于文本是半结构化或非结构化的,形式多变且缺乏机器可理解的语义,因此有些数据挖掘技术并不适用文本挖掘,即使可用也需要对文本集进行预处理,使得文本挖掘具备了一些独特的处理方法。
二、国内外研究现状与动态
自1960年第一篇自动分类的论文(Maron,1960)发表以来,文本挖掘的研究开始引起学术界的广泛关注,从整体来看国外的研究早于国内。目前已有大量的研究在文本特征表示、文本挖掘方法等方面取得了巨大进展。在文本特征表示方面以向量空间为代表,是文本挖掘中最经典的方法。通过从文本中抽象出特定的项用有特殊意义的数量代表从而使一个文档与一个向量具有了映射关系。
在此基础上一些学者对VSM进行了改进。Mao W,Chu W W(2007)讨论了三种形式的向量模型。第一种是基于词干的向量空间模型,在这种方法将文档中的每一个词作为文档的项,将TF-IDF作为项的权重;第二种是基于概念的空间向量模型,在该模型同义词被同一个概念表示,通过计算概念在文档中权重与空间向量进行映射;第三种是基于短语的空间向量模型,此时一个文档被划分为单一概念和重要短语两部分,在这一模型中短语作为一个整体进行重要性计算。
文本挖掘来源于数据挖掘,许多学者也探索了经典机器学习方法在文本处理中的表现。贝叶斯方法经常作为实验中的一个对比方法,如Wu, Ye &Zhang(2014)和Fernández-Martínez, Zablotskaya& Minker(2012) 都使用了贝叶斯方法来验证其特征提取方法的有效性。SVM是以结构风险最小化为原则的分类方法。通过找到一个超平面将各个类别分开。在SVM算法中最重要的是对核函数的学习。Wu,
Ye &Zhang(2014)使用随机森林算法对不均衡文本进行分类。将特征空间分为positive features 和negative features,并计算权重。使用bagging方法从训练集D中随机生成K个数据集。对每个数据,采用由上到下的方式建立基于SVM的树模型。在每一个节点,都使用分层取样的方法基于项的权重从Tp和Tn中选择mtry个特征。在每个节点使用特征子空间和Di数据集训练一个SVM分类器,直到所有文档属于同一个类或者本当不可再分。将修剪的K个树集成为一个分类器,使用最大投票数来确定分类。KNN算法是文本分类方法中思想最明确、方法最简单的一种机器学习方法。虽然KNN方法简单直观但是在不均衡分布的样本集上的表现并不理想,同时时间开销较大,一些学者也进行了相关改进(Fernández-Martínez et al., 2012 )。
同时,该技术业已进入商业化阶段,在邮件分类、电子会议和信息过滤等方面取得了较为广泛的应用,并已有较为成熟的文本挖掘工具,如IBM的文本智能挖掘机,主要功能是特征抽取、文档聚集、文档分类和检索;Autonomy公司的核心产品Concept Agents,在经过训练以后,它能自动地从文本中抽取概念。
由于中文和英文的不同,国内的文本挖掘在借鉴国外的基本方法之外基于汉语的特点进行了一系列的研究。中文文本挖掘的难点在于文本的特征表示部分,由于中文是以词为基本语素单位,而词与词之间并不像英语一样有空格来分隔,因此建立识别模型进行句法分析是中文文本挖掘研究的一个重点。中国科学院计算技术研究所的张华平(张华平,2005)研究了基于层次隐马模型的理论框架,将汉语分词、词性标注、切分排歧和未登录词识别相结合的中文浅层语言分析技术,通过实验证明该系统性能超过了论文发表同期的最好水平。基于该研究成果,张华平开发了NLPIR/ICTCLAS汉语分词系统,主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。可用于微博分词、新词发现与关键词提取。这一系统已成为中文文本挖掘领域进行文本处理的必选工具之一,奠定了研究基础。
虽然如此,消除切分歧义和处理未登录词仍然是当前自动分词的两大难题。歧义切分字段是指同样的一串汉子,按照不同的方法,可以切分成不同的结果。错误切分通常是由歧义组合引起的。尤慧丽(2011)针对中文自动分词中组合型歧义消解难的问题,提出了一种新的切分算法来对组合型歧义字段进行消歧。该
方法通过从训练语料中提取歧义字段的上下文信息来建立规则库,然后利用C-SVM模型结合规则对组合型歧义字段进行歧义消解。这是一种采用规则只是进行处理歧义字段的方法。在规则无效的情况下还可以使用统计信息,通过计算语料库的词义频率,然后根据贝叶斯等统计方法进行处理(张春祥 et al., 2014)。在大规模文本处理中会遇到许多不能由词典识别的词汇,包括人名、地名、术语等,这些词总称为未登录词。未登录往往与特定的文档有关,对文档分类有一定作用,因此未登录词对分词系统的准确率有重要影响。陈雪丽(2014)针对未登录词元的框架识别问题,借助同义词的信息,提出了基于平均语义相似度计算及最大熵模型两种方法,采用静态特征与动态特征相结合的特征选择方法,有效实现未登录词元的框架选择。邓柯(2014)提供了一种基于统计词典模型的未登录词发现和分词方法。利用 统计量来计算词典中词汇的统计显著性以得到最终词典中词汇的重要性得分,并根据最终词典中词汇的重要性得分对输入文本中所有识别出来的未登录词由高到低进行排序,从而根据条件概率来实现对输入文本的分词。
三、主要研究内容
1、文本挖掘流程
人们通常习惯性地将文本挖掘或文本分类和聚类视为同一概念,其实文本分类和聚类只是文本挖掘的一个功能,还包括自动文摘、关联分析等。本文重点讨论文本分类和聚类两种方法。
文本挖掘的一般定义为“文本挖掘是从大量的文档集合C中发现隐含的模式p。如果将C看做输入,将p看做输入,那么文本挖掘的过程就是从输入到输出的一个映射::Cp。文本挖掘过程如下图所示:
文档集
特征的建立
特征集的简约
学习与知识模式的提取
模型质量的评价
知识 模式
《商务智能技术》课程报告
2、文本特征表示
给定一个文本
dt1w1,t2w2,,tn,tnwnt。不考虑k在文本中的先后顺序
w1,w2,,wntt,t并要求k互异,可以把12看成一个n维坐标系,而
为相应的坐
为文
标值,因而w1,w2,,wn可看成是n维空间中的一个向量,称w1,w2,,wnwt本d的向量表示。i可以表示i在文本中出现的次数或者表示在二进制表现形式td下i项是否在文档i中出现,还可以使用文档特征选择方法确定权重。在研究特
殊性文档时表示方法有所不同。例如由于XML文档的分析要考虑结构信息和文本内容两个部分,因此文档
docx被表示为一个矩阵xRnm,矩阵的每列为一个
,xn,i结构单元对应一个n维向量:
xx1,x2,,xm,
xix1,i,x2,i,。m是
TXML文档中同结构单元(如XML元素、XML结构树的节点路径)的个数,n是文档集合中不同词语的个数,
xi,j的取值采用TF-IDF的计算方法。
t在模型表示中k表示在文档中出现的词语,当训练文档特征数量很大时不能
将所有的term都作为向量特征,同时在降维的过程中要保证分类强度大的词语不被删去,所以要进行特征选择,主要有以下方法: (1) TF-IDF法
TF-IDF方法是用来评估一个词对于一个文档集或语料库中的一份文件的重要程度。TF(term frequency)表示词条t在文档中d中出现的频率。IDF(Inverse Document Frequency)为逆向文档频率,表示包含词条t的文档数量。
tfijnijknkj
nij表示词条ti在文档d中出现的频数,knkj表示文档d中词条的总数。
idfilogD1dD:td
D表示语料库中的文件总数,dD:td表示包含词条ti的文件数目。
tfidfijtfijidfi
1
根据tfidfij的值可以过滤掉常见的词语,保留重要的词语。 (2) 信息增量
信息增量(Information Gain)定义为某一特征在文档中出现前后的信息熵之差。即不考虑特征项的熵与考虑了该特征项的熵之后的差值。
IG(t)H(C)H(Ct)P(c)log(P(c))P(t)P(ct)log(P(ct))P(t)P(ct)log(P(ct))cCcCcCP(c,t)P(c,t)P(c,t)logP(c,t)logP(c)P(t)P(c)P(t)cC当只考虑单个类的时候,则有:
P(c,t)P(c,t)IG(c,t)P(c,t)logP(c,t)log
P(c)P(t)P(c)P(t)其中t为特征,c为文档类变量,C为文档类的集合,P(c)表示c类文档在文档集中出现的概率,P(t)表示文档集中包含特征项t的文档的概率,P(ct)表示文档包含特征项t时属于c类的条件概率,P(t)表示文档集中不包含特征项t的文档的频率,P(ct)表示文档不包含特征项t时属于c类的条件概率。在第一个公式中P(c)log(P(c))是在没有任何实验情况下文本分类的熵,它表示文本
cC的混乱程度;P(t)P(ct)log(P(ct))是特征t在文本中出现的情况下文本分类的
cC熵,P(t)P(ct)log(P(ct))是特征t没有在文本中出现的情况下文本分类的熵。
cC所以IG方法反映了特征t对分类不确定的消除程度。 (3)互信息
互信息(Mutual Information)是用于体现两个变量间相关性的。它通过计算特征t与类别c间的相关性来完成提取。计算公式为:
MIt,clogP(tc)P(tc)ANloglog
P(t)P(c)P(t)(AC)(AB)其中,N为训练集中包含的文本总数,A为t与c同时出现的次数,B为t出现而c不出现的次数,C为c出现而t不出现的次数。
当t于c时,MIt,c为0。在使用时一般取平均值:
MIavg(t)P(c)MIt,c
cC其中,P(c)是类别c的概率。MI值越大,特征项和类别之间的共现概率也越大。删除MI值低于阈值的特征项,剩下的即为文本的特征集。 (4)2统计(CHI平方统计)
与MI方法类似,2统计也是用于体现两个变量间相关性的方法,但比互信息的判断能力更强,因为它同时考虑了特征存在和不存在的情况。计算公式如下:
N(ADCB)2(t,c)
(AC)(BD)(AB)(CD)2其中,N为训练集中包含的文本总数,A为t与c同时出现的次数,B为t出现而c不出现的次数,C为c出现而t不出现的次数,D为二者都未出现的次数。
当t与c相互时,2(t,c)为0。和MI类似,一般情况下取平均值:
2avg(t)P(c)2(t,c)
cC其中,P(c)是类别c的概率。2值越大,特征项和类别之间的共现概率也越大。 (5)交叉熵
交叉熵(Cross Entropy)和信息增量相似,不同之处在于信息增量中同时考虑了特征在文本发生与不发生的两种情况,而交叉熵只考虑特征在文本中发生一种情况,公式如下:
CE(t)P(c,t)log(P(c,t))
P(c)P(t)在只考虑单个类的时候,则有:
CE(c,t)P(c,t)log(P(c,t))
P(c)P(t)若某特征项t和某类别c强相关,则相应的交叉熵就大,计算结束后可以根据交叉熵的大小排序进行特征选择。
不同特征选择算法会使一篇文本得到不同的特征表示,直接影响到最终文本挖掘的结果。在已有文献对不同特征选取算法的比较中发现IG和2统计效果最好,在不损失分类准确率的情况下可以达到很高的压缩率,但这两种方法的时间复杂度较大,计算效率低。
3、文本相似度度量
文本相似性通常用文本向量间的距离来度量,可以使用的有欧氏距离、曼哈顿距离、切比雪夫距离、夹角余弦距离等,这些方法在文本挖掘中十分常见。但这些距离的基础是根据向量空间模型仅仅考虑词语之间的共现性,而没有考虑语义上的联系,本文接下来将重点介绍基于语义距离和本体的文本相似度计算。
本体的概念起源于哲学领域,是客观存在的一个系统的解释或说明,关心的客观现实的抽象本质。计算机科学将本体的概念从哲学抽象到了计算机领域,认为本体是共享概念模型的明确的形式化规范说明。本体的作用就是用来描述某个或多个领域内概念以及概念之间的关系,这种概念是规范化和形式化的,可以被计算机理解达到共享的目的,从而为异构系统之间的交流提供统一的语言。
借助本体进行文本挖掘可以对文档进行语义层次的判断,从而对知识进行挖掘。目前常用的本体结构主要有用户自建、借用已有本体和使用Wordnet等标准化的语义标注词典。
语义相似度有很多种方法,但大体都可以归为两类。一种方法是考虑两个概念共享信息的程度,基于信息理论定义相似度计算方法;另一种采用了先计算两概念在本体树中的语义距离,然后转化为语义相似度的方法。 方法一:基于信息量的概念相似度 1)定义信息量
一种是从语料库中获取信息量。一个概念的信息量和它在语料库中出现的频数成反比关系。设Freq(c)为概念c在语料库中出现的频数:
Freq(c)occur(ci)cAncestors(ci)其中Ancestors(ci)表示ci的父节点
即概念c的频数为概念c及其子节点出现的频数和。
则概念c的概率可表示为:
Probc=Freq(c)NN表示语料库中所有概念的总数。 概念c的信息量可定义为:
ICc=-log(Prob(c))
另外一种是根据本体内部信息获得概念概率 i.自上而下的概率平均分配法
根据层次概念树的结构,将概念的概率平均分配给它所有子概念(子概念指概念的直接孩子概念)。称为由上而下的概率分配法,公式如下:
1,p(c)1c(p)p(p),c是根概念c是其他概念
其中,p是c的父概念,c(p)为概念p的子概念数,p(c),p(p)分别为概念
c,p的出现概率。该方法认为概念的实例与其各子概念实例的概率相等,无法
区分概念的各子概念对其概率贡献的差异。 ii.自底向上的概念概率计算方法
该方法认为本体中任意概念的语义信息可由它所覆盖的子树中的所有叶子概念共同表达。通常领域内的实例属于其本体中叶子概念的概率相等,即本体中所有叶子概念的概率相等,非叶子概念概率等于其所有子概念概率之和,也就是非叶子概念概率是其包含的全部叶子概念的概率之和。该方法如下所示:
1,p是叶子节点lcount ppcppc,p是其他节点ii1其中,pp为概念p的概率;lcount为本体中叶子概念的总数;ci为概念p的第i个子概念;pci为ci的概率;cp为概念p的子概念数。
计算信息量
ICclogpc
2) 定义概念共享信息量
设Share(c1,c2)定义公共节点的最大共享信息量。
Share(c1,c2)maxIC(a)asub(c1,c2)其中sub(c1,c2)是c1,c2的公共节点。
3) 定义语义相似度
基于共享信息量,不同的研究定义了以下计算语义距离的方法: Resnik(1995)将两个概念的共享信息量定义为语义距离
SimResnik(c1,c2)=Share(c1,c2)
Jiang和Conrath(1997)将两个概念本身的信息量和共享信息量综合起来,定义了语义距离。
distjc(c1,c2)=IC(c1)+IC(c2)-2*Share(c1,c2)
根据语义距离,可将语义相似度定义为:
1Simjc(c1,c2)=
(distjc(c1,c2)+1)分母加1防止出现距离为0,相似度无限大的情况。 Lin(1998)用概念信息量和共享信息量定义了语义相似度。
SimLin(c1,c2)=2*Share(c1,c2)
IC(c1)+IC(c2)方法二:基于距离的概念相似度
1)Hirst和St-Onge 研究了利用WorldNet计算名词关联度
relHSClenc1,c2Kturnsc1,c2
C和K代表常数,通常取值为C1,K8。turnsc1,c2表示从c1到c2路径改变方向的次数。
2) Hirst和St-Onge修正了上面的公式,用web服务中的输入和输出参数代替了名词的概念,并且用web 服务的本体替代WordNet,从而计算语义距离(SDM)。
SDMS1,S2CLWPLD
其中S1为服务请求,S2为服务声明。PL为在本体中从S1到S2的路径长度,
D表示从S1到S2的路径需要下降的长度。LW表示本体中处于不同层次的边的
权重。
LWNLN1 NLN表示概念节点在本体中所处的层次,N表示本体的深度。 3) Tamer 和Ahmed对该模型进行了进一步修正。
LWNLN1 NSDMS1,S2CLWPLD
但在该模型中,若将C取为常数8,则SDM可能会出现负数的情况。因此进一步修正该公式,计算两个概念的语义距离:
MDLWcL2cPLD12c1,c2相关 SDM(c1,c2)MDZeroc1,c2不相关或出现负数LWMDConceptlevel+1
MDMD为树的最大深度。
4) Wu和Palmer为计算WorldNet中两个动词的语义相似度,基于概念在本体中所处的深度定义该公式:
simc1,c2len(c1,lso(c1,c2))len(c2,lso(c1,c2))2depthlsoc1,c22depthlsoc1,c2
depth代表概念层次,len代表两个路径之间的路径长度,lso代表两个概念
的最小公共节点。
由语义距离和语义相似度的关系:
distance1similarity
可以得到语义距离公式:
SDM(c1,c2)len(c1,lso(c1,c2))len(c2,lso(c1,c2))
len(c1,lso(c1,c2))len(c2,lso(c1,c2))2depthlsoc1,c2基于本体的语义相似度还是一个有待探索的领域,计算相似度的方法各不相
同各有利弊至今还没有一个统一的标准。但是根据语义相似度进行文本挖掘是未来的一个必然趋势,通过加强语义理解能力可以更好地匹配用户需求,增强互操作性,提高挖掘系统的性能。
4、改进的文本挖掘方法
文本挖掘应用最广泛的两个领域是文本分类和文本聚类。
文本分类的方法基本上可以分为三大类,一种是基于统计的方法,如贝叶斯方法、KNN、类中心向量、支持向量机等,另一种是基于连接的方法,即人工神经网络,还有一种是基于规则的方法,如决策树、关联规则等。这些方法的理论基础很多文献中都已介绍的得非常详细,在此不再赘述。本文将重点讨论对KNN方法的改进。
KNN算法是文本分类方法中思想最明确、方法最简单的一种机器学习方法。但该算法主要存在着两方面的问题:1)时间复杂度大,具体表现为相似性计算复杂和寻找K个邻居两个方面 2)对于不均衡分布的训练集使用KNN方法时对分类的精确度有较大影响。因此目前的研究大多集中在解决以上两个问题。
首先是关于降低时间复杂度。目前较为常用的方法是将聚类作为KNN方法的预处理环节。通过聚类算法对训练样本进行聚类,每一簇表示一类文本,由词的权重和簇标签构成,每个簇用质心向量表示。输入测试样本后,只需计算该样本到每个簇的距离从而化简了相似度计算过程,时间复杂度近似为线性。同时该方法在处理不均衡分布的数据时比传统KNN、贝叶斯和SVM方法更有鲁棒性
提高KNN算法查找K个最近邻的速度可以通过在样本确定一个基准点R,根据各个样本到R的距离建立有序队列,并建立一张索引表;在该索引表中找到距离接近样本到R的距离的样本q,以q为中心选取k个初始最近邻,然后根据条件不断替换搜索,直到找到精确的k个最近邻。该方法只提高了分类速度,对分类准确率没有提高。
针对KNN方法在不均衡分布的样本集上的表现并不理想的问题,一种改进方法是在分类时考虑到样本集中各个类的局域性,它不是从整体样本中抽取K个邻居,而是从每个类中选取距离K个距离测试对象的样本,计算对象与C个类的相似度(对象和每个类K个样本相似度的平均值),选取最大的类标记测试对象。
还有一种方法是基于分布密度,对KNN算法在分布不均匀的数据集上存在的缺陷进行改进。通过判断待分类文本该属于的簇的成员核密度在
d0d0对各类
cj的密度扰动程度进行分类。
d0应
加入之后,受到的影响应该最小。针对训练文本
和测试文本在向量空间中的相对位置,对训练样本集进行删减以减少计算量。首先使训练文本的每一类形成一个簇,这样每一簇就构成了一个超球面,某一个类的几何中心和类内各文本与类中心之间距离的最大值为该簇超球面的半径。传统的KNN分类器需要计算一个待分类本文与所有训练文本之间的距离,在该方法中对于测试文本dj,计算它与各个超球面中心的距离。若该距离大于该类超球面的半径,则将该训练文本删去。若小于,则将该训练文本集作为K-近邻的训练文本,以此删减训练集。同时对于类倾斜的训练文本集,考虑各类的文本数量引入了权重因子
文本聚类是文本挖掘的一个重要方面,聚类分析能够将特征相似的文档归为一类从而发现有判断能力的规则。聚类算法可以分为基于划分的聚类算法、基于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法和基于模型的算法等。聚类算法中存在的主要问题是初始k值和划分个数的不确定会影响最终的聚类结果,同时一些聚类算法对噪声数据敏感。
K-means算法是最常用的基于划分的聚类算法,为克服以上问题可以先基于最近邻最大距离的思想和统计学的思想对数据集中的距离矩阵进行分析和处理,从而检测出数据集中的孤立点。在选取初始点时与基于密度的算法相结合,使用可变步长的初始聚类中心点选取算法选出处于密集区域且相互较分散的初始中心点。DBSCAN算法是一种基于密度的聚类方法。由于该方法是对整个数据库进行操作,对内存要求高,同时当空间聚类的密度不均匀,聚类间距相差很大时,聚类质量较差。针对其内存消耗大的问题可以利用数据采样来扩展DBSCAN算法,从而可以对大规模数据库进行聚类分析。通过采用一种快速的聚类标注方法,使得对取样数据的聚类计算和对未被取样数据的聚类标注能够快速同步地进行,从而较大幅度地提高整个聚类过程的速度和效率。对于分布不均匀的数据集,根据不同的Eps分别进行过滤式地聚类。每当根据下一个Eps进行聚类时,将去掉已经聚成类的数据点,以避免数据点被重复聚类。
5、文本挖掘方法评估
对分类算法的性能评估主要来源于分类算法对测试集的分类结果。根据文档测试集的真实类别Oc和分类算法所分类识别的类别Pc之间的关系,可以形成一个混淆矩阵,数据集的类别用c1,c2,....,cm表示,数据a(Oci,Pcj)表示真实类别为Oci,分类器分类结果为Pcj。
Oc1 Pc1 a(Oc1,Pc1) Pc2 a(Oc1,Pc2) Pcm a(Oc1,Pcm) 总计 SOc1 Oc2 a(Oc2,Pc1) a(Oc2,Pc2) a(Oc2,Pcm) SOc2 Ocm a(Ocm,Pc1) a(Oc1,Pc2) a(Ocm,Pcm) SOcm 总计 SPc1 SPc2 SPcm N 从上表中可以看出只有与对角线相对应的分档和分类标号才是正确,因此最理想的状态是出对角线数据不为0外其他全部为0.
分类算法的精确性
accuracya(Oc1,Pc1)a(Oc2,Pc2)Na(Ocm,Pcm)
N为测试文档的总个数。
对于每个单独类,还可以定义2个度量值,即召回率和准确率
召回率(Recall)为实际类别为ci类别的所有实例中被分类算法正确分类为ci的比例
recall(ci)a(Oci,Pci)S(Oci)
准确率(Precision)是所有被分类算法识别为ci类的测试集(包括测试集类别为其他类而错分到ci中)中确实类别为ci的测试集所占的比例
precision(ci)a(Oci,Pci)S(Pci)
对于一个分类算法召回率和准确率都尽可能高是最理想的情况或者可以根据一个指标综合考虑这两个因素即F1测度。
F1(ci)2presicion(ci)recall(ci)presicion(ci)recall(ci)
四、总结与建议
随着互联网的发展数据多样性的特点日益突出,为了更好地理解和管理一些特殊格式的数据如图片、视频等通常采用添加文字标签等方式进行区别。因此对文本的处理不单是纯文本结构应用的需求,也会帮助其他相关应用的发展。文本挖掘旨在处理半结构化和非结构化的数据,以期获取更有用的潜在信息,提供更有力的知识管理手段。本文重点介绍了文本挖掘的主要流程和一些改进方法。
首先是文本的表示和选择方法。不同于数据挖掘中的结构数据,文本数据往往是高维且属性不确定的,即不能通过属性在提取出不同的指标。分词后所有的项在属性上都是一致的。但高维数据不仅计算繁琐,同时一些不必要的特征会对分类效果产生较大影响,因此需要特征选择提取区分特性强的特征。本文介绍了基本的向量空间模型文档表示方法,还介绍了一些特殊文档中的文档表示,重点阐述了TF-IDF法、信息增量、互信息、2统计和交叉熵五种特征选择方法。
其次介绍了新的文本相似度度量方法。在基于向量空间模型的基础上可以采用多种距离计算公式来确定两个文档间的相似性,但在这一方法中只考虑了词语和类之间的共现性而没有考虑语义上的联系。在这一部分中文本介绍了基于本体的不同的语义相似度计算方法,主要有基于信息量和基于结构距离两种方法。
紧接着重点对两种挖掘方法的改进方法进行阐述。针对KNN和聚类方法存在的一些问题提出了改进意见。最后介绍了文本分类和聚类系统的评估标准。
虽然文本挖掘发展得日渐成熟取得了显著成果,但是传统的基于关键词的挖掘方法从词的语法信息出发只考虑了同一词性出现的概率对不同文本类别的影响。但由于表现方法的多样性,可能会出现意思相同的文档却使用完全不同的词
语表达,这样会极大影响分类的准确性。虽然逐渐引入了基于语义的分类,但目前由于参考的本体、语义距离计算以及基于语义的分类器都没有统一定论,仍需要进一步探索。
五、主要参考文献
[1] Fernández-Martínez F, Zablotskaya K, Minker W. Text categorization methods
for automatic estimation of verbal intelligence[J]. Expert Systems with Applications, 2012, 39(10): 9807-9820.
[2] Hirst G, St-Onge D. Lexical chains as representations of context for the detection
and correction of malapropisms. In: Fellbaum Christiane, editor.WordNet: an electronic lexical database. Cambridge, MA: The MIT Press; 1998. p. 305–32 [chapter 13].
[3] Jiang, J.J., Conrath,D.W., Semantic similarity based on corpus statistics lexical
taxonomy[C] . In the Proceedings of ROCLING X, Taiwan, 1997 .
[4] Lin D. An information-theoretic definition of similarity[C]//ICML. 1998, 98:
296-304.
[5] Mao W, Chu W W. The phrase-based vector space model for automatic retrieval
of free-text medical documents[J]. Data & Knowledge Engineering, 2007, 61(1): 76-92.
[6] Maron M E, Kuhns J L. On relevance, probabilistic indexing and information
retrieval[J]. Journal of the ACM (JACM), 1960, 7(3): 216-244.
[7] Rajan K, Ramalingam V, Ganesan M, et al. Automatic classification of Tamil
documents using vector space model and artificial neural network[J]. Expert Systems with Applications, 2009, 36(8): 10914-10918.
[8] Resnik P. Using information content to evaluate semantic similarity in a
taxonomy[J]. arXiv preprint cmp-lg/9511007, 1995.
[9] Tamer A. Farrag, Ahmed I. Saleh b, H.A. Ali. Semantic web services
matchmaking: Semantic distance-based approach [J]. Computers and Electrical
Engineering,2013,39: 497–511.
[10] Wu Q, Ye Y, Zhang H, et al. ForesTexter: An efficient random forest algorithm for
imbalanced text categorization[J]. Knowledge-Based Systems, 2014, 67: 105-116.
[11] Wu Z, Palmer M. Verb semantics and lexical selection[C]. In: Proceedings of the
32nd annual meeting of the associations for computational linguistics;1994. p. 133–38.
[12] 张华平. 语言浅层分析与句子级新信息检测研究[D]. 中国科学院研究生院
(计算技术研究所), 2005.
[13] 尤慧丽, 晏立, 杨晓东. 中文分词中组合型切分歧义的消解研究[J]. Computer
Engineering and Applications, 2011, 47(31).
[14] 陈学丽, 李茹, 王赛, 等. 汉语框架网中未登录词元的框架选择[J]. 中文信息
学报, 2014, 28(3): 48-.
[15] 邓柯,刘军.基于统计词典模型的未登录词发现和分词系统及方法[P].中国:
201410299453.9, 2014.11.19
[16] 徐建锁. 知识管理和文本挖掘的若干问题研究 [D]. 天津: 天津大学, 2004 [17] 张春祥, 栾博, 高雪瑶, 等. 基于句法分析的汉语词义消歧[J]. 计算机应用研
究, 2014, 31(1): 40-42.
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- igat.cn 版权所有 赣ICP备2024042791号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务