您好,欢迎来到爱go旅游网。
搜索
您的当前位置:首页基于语境分析的汉语分词器在文本信息过滤系统中的应用

基于语境分析的汉语分词器在文本信息过滤系统中的应用

来源:爱go旅游网
第25卷第3期 郑州轻工业学院学报(自然科学版) JOURNAL 0F ZHENGZHOU UNIVERSITY OF LIGHT INDUSTRY(Natural Science) Vo1.25 No.3 2010年6月 Jun.201O 文章编号:1004—1478(2010)03—0066—05 基于语境分析的汉语分词器 在文本信息过滤系统中的应用 律佳,廉立志 (大庆职业学院计算机应用工程系,黑龙江大庆163255) 摘要:针对汉语分词的歧义切分问题,提出了一种基于语境分析的二元汉语分词器,通过词典匹配和 二元切词的结合进行歧义消解,使用分词校正器从句子语法角度上检测分词结果的正确性.实验证 明,改进的汉语分词器具有识别各种类型新词、消解各类歧义的能力;将其应用到文本信息过滤系统 的文本分析模块,在强化系统语言分析能力的同时,系统的过滤精度也得到大幅度的提高. 关键词:汉语分词器;文本信息过滤;歧义消解;分词校正器 中图分类号:TP393.08 文献标志码:A Application of Chinese word segmentation based on language analysis in text information filtering system LV Jia,LIAN Li—zhi (Dept.of c0 .Appli.Eng.,Daqing Voc.College,Daqing 163255,China) Abstract:For the segmentation ambiguous problems of Chinese word segmentation,a bigram method for Chi- nese word segmentation was proposed based on language analysis.The combination of dictionary matching and bigram segmentation can digest ambiguity,and check the correctness of segmentation in sentence gram— mar by segmentation correction.Experiments proved that the improved Chinese word segmentation has the ca- pacity which recognizes new words in various domains and disambiguates ambiguity words;The improved Chinese word segmentation is applied to text analysis module in the text information filtering system,the lan- guage analysis capabilities and filtering accuracy of the system have been improved at the sanle time. Key words:Chinese word segmentation;text information filtering;disambiuatgion;segmentation correction 0引言 互联网的高速发展使其成为世界上资源最丰 曼 言 磊 息,这意味着互联网上海量信息的质量各种各样. 富的信息网络,其蕴涵的大量共享资源,已成为人 用户通常只是想阅读自己感兴趣的东西,如何更加 收稿日期:2009—11—02 基金项目:黑龙江省研究生创新科研项目(YJSCX2006--38HLJ) 作者简介:律佳(1980一),女,辽宁省北票市人,大庆职业学院助教,主要研究方向为人工智能与数据驼掘. 第3期 律佳,等:基于语境分析的汉语分词器在文本信息过滤系统中的应用 ・67・ 准确快捷地帮助用户寻找其感兴趣的信息成为信 W W w 为多义组合型字段.例如,在“提高人民生活 息搜索技术研究的一个热点问题,信息过滤技术正 水平”中,就可分为“提高”、“高人”、“人民”、“民 是为解决这一问题而提出的.所谓信息过滤是指计 生”、“生活”、“活水”、“水平”.词之间都有交段,分 算机根据用户提供的一个检索需求,从动态变化的 别为“高”、“人”、“民”、“生”、“活”、“水”6个,交段 信息流中自动检索出满足用户需求的信息.信息过 的个数称为链长,因此,“提高人民生活水平”是链 滤已经作为一种崭新的信息处理方式应用到信息 长为6的交集型歧义字段.再如,在“大家好”可以 内容安全领域.从1997年的第6届文本检索会议 分成“大”、“家好”、“大家好”,因此“大家好”就是 (text retrieval conference,TREC)开始,文本过滤作 多义组合型歧义字段.一般来说,交集型歧义和多 为会议的主要任务固定下来.到2000年,复旦大学 义组合型歧义统称为伪歧义,其中交集型歧义占伪 和微软亚洲研究院作为第一批来自中国的单 歧义的85%.在歧义中还有一个难题,是真歧义.真 位参加了TREC的第9次会议,讨论研究了文本过 歧义的意思是:给出一句话,由人去判断哪个应该 滤技术的发展.此外哈尔滨工业大学、南开大学等 是词.例如:“乒乓球拍卖完了”中的“球拍”和“拍 也正在对信息过滤方向进行研究.互联网上的信息 卖”. 分为文本信息和非文本信息(如图形、图像、音频、 本文提出了基于语境分析的中文分词算法,结 视频等).文本信息过滤是信息过滤领域的重要组 合词典匹配和词频统计的迭代式二元分词方法,能 成部分,它根据用户的信息需求模型,在大量的动 够对目标文档进行基于语境的词频统计,并通过组 态文本流中,搜索用户感兴趣的文本内容,屏蔽其 合因子消解交集型歧义,解决基于二元分词模型分 他无用的信息. 词算法所产生的大量交集型歧义字段的问题.此 文本信息是不能直接进行计算和推理的,只有 外,分词过程中应用了基于语境函数的分词校正器 将它们抽象为可计算的模型后才能有效地处理计 作为后处理,基于语境信息函数从句子语法角度检 算和推理业务,所以,一个文本信息过滤系统首先 测,若不符合语法规则,调整语境信息函数,即 要解决的问题是文本的预处理.预处理的主要工作 ,( :Y)的值置为0,并返回切词器重新切词,校正 是对所采集的信息进行文本格式化处理(如网页、 器的加入解决了冗长文本中因为分散存在的关键 电子邮件等标签的清理过程),对提取的文本利用 字而造成的假匹配问题. 词性标注词典进行分词得到向量空间模型.其中, 1.1分词流程 分词是提取信息特征值及构建文本向量的前提,也 汉语分词器的分词流程如图1所示:1)对文本 是所有汉语文本处理的基础.汉语文本是基于单字 流用有限自动机进行文本处理,识别其中有明显特 的文本,词与词之间没有明显的界限标志,同时词 征的中英文数字(包括基数词、序数词、小数)、域 与词之间存在着大量的歧义现象,因此分词是汉语 名、日期等.2)把处理后的文本与词典匹配(词典包 文本分析处理中首先要解决的问题之一.基于语境 括词频字典、姓氏表、地名表、量词表、停词表等), 分析的汉语分词器从语境角度分析歧义字段内部 选取所有与字典匹配的词并去掉与停词表匹配的 的信息…,利用扩展转移网络的语法分析技术检测 词.3)文本流输入到二元切词器中并进行词频统计 分词结果的正确性.本文将在文本信息过滤系统中 ‘和候选词选择.4)将分词后的结果输入到分词校正 应用汉语分词器,以期提高系统的过滤精度和效率. 器,通过调整语境信息函数,从句子语法角度上检 1汉语分词器 测分词结果的正确性.5)对校正后的分词结果进行 倒排序索引,索引后的数据包含词和词频,加入词 在自动切词的过程中,只是在歧义切分字段才 频字典形成新的词频字典,增强了分词系统的学习 有可能发生错误切分.歧义字段从构成形式上可以 性能.. 分为交集型字段和多义组合型字段.例如,汉字串 1.2二元切分算法 W1W2w3,如果W1W2,W2W3都可成词,则WlW2W3为交 设D表示一个中文文档,中文序列被各类非中 集型字段.如果W1,W1W2,W1W2W3都可以成词,则 文字或符号分割.这样划分出来的序列称为句子S . ・68・ 郑州轻工业学院学报(自然科学版) 20lO年 图1 汉语分词器流程图 若不考虑句子之间的相关性,则文档D是由m个序 列S (0<i≤m)构成的集合,即D={Js ,S , 3,…, s }.每个序列.s 由 个字W (0< ≤/g)按序构成, 即S =W W ,…,W 对.s 可以有多种切分,可以 把S 中的第 种切分为 ]. = xP( l c 1)= =arg xP( )尸(c l 1) 其中c 表示W 。一 的一次切分;由于有了词串, 句子就被唯一确定了,故P(C l )=1,则有 W=argmaxP( ) 假设词与词之间,则有 =arg axnP( J)=arg ax nP( J)≈ /l mi argm n( ) ① . .令P(K )=kWi I∑k 其中,kWi√表示词 Wi,j在训练集中出现的次数时P(k )表示全局词 频; Wil表示词 ,z在本文中出现的次数时P(k ) ,表示局部词频;所以式①可以改写成 尸( ) argWj.max∑In(P(WiJ)) 根据动态规划的思想,将统计值从前到后作如 下处理: 叶 mj一1 ∑lnP(WiJ):【∑lnP(wi√)]+lnP(Wi,叶)② 为了衡量每个词的性,计算 转移到后续 词W 的概率和为组合因子 A =∑p(w W ) ③ ui i 1.3迭代式二元切分算法 本文将迭代思想引入到交叉双字切词方法中, 即首先以二元切分作为候选;筛选后,合并选取的 二元词作为字进入下一轮迭代;如此反复,直到规 定的迭代次数或没有符合要求的二元词出现为止. 本分词算法主要解决如何在尽可能多的候选词基 础上,从中挑选出有意义的组合之类的问题. 假设,句子S={W1,W2,W3,W4,…,W 一1,W }在 第1次迭代中的候选词{W1W2,W2,W3,W3,W4,…, W ,W },计算②式得到P(W W )和P(W:W )筛选 候选词,如果还在候选词之列,则计算③式得到组 合因子A . 和A .3'由A , 和A:.,的比较决定是选 W1W2还是W2W3.例如,若A1.2<A2-3,故W1W2被拆 分,形成新的候选词W /w:W,_3-4].以此类推,合并 后的候选词作为一个字进入下一轮切分,不断重 复,直到规定的迭代次数或没有符合要求的二元词 出现为止,即算法收敛 J. 例如,设候选词为“李玉刚”,第一次的切分结 果是“李玉/玉刚”,计算“李玉”和“玉刚”的词频并 与词频字典匹配,若与词典匹配,则分词完毕,若不 匹配则计算组合因子.在这里“李玉”和“玉刚”没有 与词典匹配,说明这两个词是“新词”(词频词典里 不存在的词).计算它们的组合因子,由于“李玉”的 组合因子数<“玉刚”的组合因子,故“李玉/玉刚” 被拆分为“李/玉刚”,第1次迭代结束.第2次迭代 时,“李”和“玉刚”的组合因子相等,故“李玉刚”被 组合.但这样依旧带有盲目性,易产生大量无意义 的组合,本文设置了词频阈值和组合因子阈值.词 频阈值的作用是尽快去掉无关的结果;组合因子阈 值则决定了词的相对性. 1.4分词校正 1.4.1语境信息函数2个字之间的结合紧密度 是用互信息量来衡量的,设 是文档D中的词,其 首字为 ,首字以后部分为Y.词加 的语境信息可用 和Y之间的互信息量表示.由语境切分理论可知, 语境信息函数应当考虑文章语境信息和社会语境 信息2种。。 . 设文章语境信息为, ( :Y),则 ,, 、 [1og[p ( )/( ( )pz(),))]其中Y不为空 ”… 【log[p ( )] 其中Y为空 其中,P ( ),P (Y)分别表示 ,Y在文章D中出现的 概率.若令P ( ),P (Y)表示 ,Y在训练集中出现 的概率,则社会语境信息为 ,, 、 flogEp (xy)/(p ( ) (y))]其中Y不为空 : Ilog[p ( )] 其中Y为空 第3期 律佳,等:基于语境分析的汉语分词器在文本信息过滤系统中的应用 ・69・ 有了词的文章语境信息和社会语境信息的表 示,语境信息函数可表示为 ,( :),):口 ( :y)+(1一 )It( :y) 用自身.因此,递归转移网络的过程是非确定的,对 这种非确定性的处理就需要采用语境函数,( :y)来 回溯处理,从统计函数角度来检测分词结果,若不 符合规则,调整语境信息函数,即,( :Y)的值置为 0,并返回分词器重新分词. 其中,比例参数 [0,1]. 1.4.2语法模型由于句子是词按句法组成的,因 此,对分词结果进行语法分析同时还能检测分词的 正确性.本部分借鉴采用递归转移网络,递归转移 2汉语分词器在文本过滤系统中的 网络是w.伍兹研究的著名实验性智能信息检索系 统中首先采用的语法分析技术,递归转移网络语法 图如图2所示. S: NP= PP=、 图2递归转移网络语法图 图2中给出分析句子、名词短语、前置词短语的 3个递归转移网络,其中每个网络的起始节点标号 代表该网络所要分析的语法类,实际上这个标号也 代表语法分析程序的名称.每条有向弧线上的标号 可以是词或词组,带双圈的节点代表接收状态.如 果一个英语句子能为一组网络接收,那么这个句子 就是符合语法要求的一个合式句.递归转移网络的 思想是自顶向下分析,即:自左向右逐个扫描输入 串,一边把输入符号移人(shift)分析栈内,一边检查 位于栈顶的一串符号是否与某个产生式右部相同. 如果相同,就把栈顶的这串符号替换为相应产生式 左部的非终结符,这种替换称之为规约(reduce);如 果不同,就继续向栈内移人符号,并继续进行判断. 上述过程一直重复到输入串已结束,而栈内恰好是 给定文法的开始符号(假定未发现错误)时为止.在 这个过程中,反复执行移人和规约这2个动作,规约 动作是在栈顶形成某个产生式右部的符号串执行. 一个产生式的右部通常表示句子某部分语法成分, 语句就是通过不断地规约才识别出来的.通过对英 文语句的处理发现,用名词短语分析程序时需要调 用前置词短语分析程序,这又导致要调用名词短语 分析程序自身,程序在运行过程中直接或间接地调 应用 文本过滤可以分为以下几部分:1)对用户的要 求进行认知,即把用户的要求在计算机内表达; 2)对输人文本进行表达,以便能够与用户的要求进 行比较,把符合要求的文本提供给用户;3)对输入 文本进行判断,即把用户的要求与输入文本进行比 较,然后把输入文本划分为相关文本或无关文本. 考虑到汉语的特殊性,本系统在输人文本的分析模 块中增加了基于语境分析的汉语分词器,筛选候选 词并进行歧义消解,以提高语境分析的准确度 7jl. 系统的整体模型图如图3所示. ●●●●●●●●●●●●●●●●●●●●●●●● 图3改进后的文本信息过滤器 3仿真实验 3.1 中文分词系统性能分析 下载了较常用的分词算法逆向最大匹配法和 词频统计法,将其与本文算法分别用来对现有语料 库中的文章进行分词,分别计算出在相同实验条件 下各分词算法的准确率(算法所分得的正确的词的 个数与分得的所有的词的个数之比).选取SogouC 的开源文本语料库里的5篇文章,每篇文章1O0— 200字.分词结果用人工对照PFR人民日报标注语 料库,实验结果如表1. 逆向最大匹配法一般只作为1种初分手段,单 独使用这种方法进行分词,其精度不高;统计法分 词在分词精度上有了很大提高,但仍不能满足应用 需求.实验结果表明,本文算法的平均准确率比逆 郑州轻工业学院学报(自然科学版) 2010年 向最大匹配算法提高31.9%,比词频统计法提高 9.8%,比逆向最大匹配法和词频统计法更能满足应 用需求. 表1各算法精度比较 行分析,使用改进的反馈算法对主题特征项进行学 习,完善了系统的分析和学习功能,因此衡量过滤 系统性能查全率和查准率明显提高,系统性能得到 优化. 4结论 通过实验分析,可以看到分词的精度在一定程 表1表明:逆向最大匹配法和词频统计法实验 次数的增加,其算法的准确率变化不大,可见逆向 匹配算法和词频统计法比较稳定.本文算法综合了 词典匹配和词频统计法2种方法,在分词过程中虽 然准确率较高,但算法的稳定性还待提高. 3.2 中文分词对信息过滤性能的影响 选取语料库中100篇文档,分别采用CJKAna— lyzer分词的过滤系统和改进后的本文过滤系统对 不同主题进行过滤,2个过滤系统的评测指标数据 见表2. 表2 系统性能对比表 % 表2表明,CJKAnalyzer过滤系统的平均召回率 67.6%,平均精度72.6%;本文过滤系统的平均召 回率83.9%,平均精度85.2%,其平均召回率和平 均精度与其相比,分别提高16.3%和12.6%.由 于本文采用了基于语境的分词方法对待测文本流进 度上影响到文本过滤系统的精度.换言之,若分词 的精度达到一定的水平,其对中文信息过滤的影响 将不再明显.本文提出的基于语境分析的汉语分词 器,是一个具备较强份额跨领域新词识别能力的分 词系统,通过对不同领域的文章进行分词评测,本 文的分词算法有着良好的表现,分词精度很高.此 外,各类别的准确率有一些差别,因为过滤结果对 类别的依赖性大,例如,娱乐和体育类的过滤性能 高于科技类.说明各类别自身的特征鲜明程度不 同,造成了过滤结果的不同,特征越鲜明、与其他类 别反差越大,过滤性能也越好.因此,可以对特征鲜 明程度不明显的主题寻找更多的语料或者是进行 人工干预,以解决上述问题. 参考文献: [1] 章茂元,卢正鼎,邹春燕.一种基于语境的中文分词方 法研究[J].小型微型计算机系统,2005,26(1):129. [2] 黄萱菁,夏迎炬.基于向量空间模型的文本过滤系统 [J].软件学报,2003,14(3):436. [3] 曹贵洪,何丕廉,吴光远,等.中文分词对中文信息检 索系统性能的影响[J].计算机工程与应用,2003, 19:78. [4] 张家勇,刘建辉.基于中文分词技术的信息智能过滤 系统[J].信息技术,2006,30(12):175. [5] 苏云,马慧芳.基于Web的信息过滤技术[J].情报技 术,2005(5):73. [6] 孙建军,成颖.信息检索技术[M].北京:科学出版 社.2004. [7] 律佳.文本信息过滤系统的研究与实现[D].大庆:大 庆石油学院,2009. 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- igat.cn 版权所有 赣ICP备2024042791号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务