您好,欢迎来到爱go旅游网。
搜索
您的当前位置:首页基于弱监督迭代法的情感倾向分析

基于弱监督迭代法的情感倾向分析

来源:爱go旅游网
基于弱监督迭代法的情感倾向分析 封二英 庞 灵(河北金融学院,河北保定071051) 摘 要:针对目前情感倾向分析过于依赖现有经验和大规模语料库的不足,本文提出基于弱监督迭代法的情感倾向分析模型。本模型以较 少的种子情感词汇做引导,通过弱监督迭代计算,不断更新、扩充情感词典。在此基础上完成情感倾向分析任务。并将该模型应用到评论情 感倾向分析中,验证了方法的有 胜。 关键词:情感倾向分析;弱监督;迭代模型;产品评论 1相关工作 有监督的机器学习方法,无监督算法以及半监督算法是 目前情感倾向分析的主要方法。庞博“ 等使用标准的机器学习 方法进行文本情感分类工作。宇弘 等选用若干极性较强的形 容词作为情感词,构成一个种子情感词集合,采用无监督算法 若Fp<Fn,则 Fn score=—— +Fn (2)情感词典更新。情感词典更新分为两个步骤。 ①人工挑选出极少的情感词作为种子情感词汇,构成最初 判断句子的情感倾向。唐辉丰 等利用基于EM的半监督学习算 法,对文本进行分类。 2基于弱监督迭代法的情感倾向分析模型 2.1数据预处理模块 首先对评论进行分词、词性标注、分句、划分带状区域等 预处理,然后选择合适的候选情感词(选取至少出现在两篇或 以上文章中、句子中或带状区域中的词语),在此基础上构建情 感词典。其中,分词基于简单的二元切分的方法,分别以结构助 词、非汉字、标点符号等作为分隔符;句子切分一般以标点符号 作为分隔符;带状区域的划分以中英文逗号加上分句采用的标 点符号作为分隔符。 2.2情感倾向分析模块 首先根据情感词典中情感词的情感倾向判断带状区域的情 感倾向(如果该带状区域中积极的情感词个数大于消极的情感 词个数,则该带状区域为积极的,如果消极的情感词个数大于 积极的情感词个数,则该带状区域为消极的);然后由一个句子 所包含的所有带状区域的情感倾向判定出该句子的情感倾向; 最后由该篇评论所包含句子的情感倾向判定得出整篇评论的情 感倾向性。 2.3情感词典更新模块 根据情感词的出现频率计算情感分数。使用情感词和情感 分数更新情感词典。 (1)情感分数计算。对于所有的候选情感词,需要通过一个 情感区分度difference来考察这个候选情感词是否有足够的 区分正负情感倾向的能力。情感区分度由该候选情感词出现在 积极评论中的频率Fp和消极评论中的频率Fn来构成的,公式如 下: differe”cP:l丝二 !! (Fp+Fn)/2 本文中设定difference的阈值为1。当difference<l时,表 明该词条不具备足够的区分正负情感倾向的能力,舍弃;否则保 留,选为情感词,计算情感分数。对于difference ̄l的情感词, 通过以下公式来计算情感分数score: 若Fp>Fn,则 FD score=—————=——一 +Fn 9o口圜目圆 的情感词典。该步对情感词典的更新工作只在初次计算评论文 本情感倾向之前执行一次。 ②当候选情感词difference值符合阈值条件时成为情感 词,计算它的情感分数。当情感词典中已存在该情感词时,直接 更新该词情感分数。否则,将该情感词和它的情感分数同时存 入隋感词典。当候选情感词difference值不符合阈值条件时, 查找该词语是否存在情感词典中,如果存在则从l青感词典中删 除该词语和它的情感分数。 2.4迭代算法 本文提出以少量种子情感词汇开始,经过迭代计算情感词 的情感分数,来不断更新、扩充和完善情感词典。最终达到对评 论进行判定的目的。该算法主要包括以下几个步骤:(1)读取评 论作为输入数据;(2)对评论进行分词、分句以及划分带状区域 操作;(3)选择候选情感词;(4)从候选情感词中选择种子情感词 汇,并设置情感分数,构成最初的情感词典;(5)迭代执行以下步 骤来训练情感倾向分析模型:1)由当前的情感词典计算出所有 zone的情感倾向;2)由所有zone的情感倾向计算出所有句子的 情感倾向;3)由所有句子的情感倾向计算出所有评论的情感倾 向;4)通过统计候选情感词的出现频率,选择符合条件的候选 情感词作为情感词。计算情感词的情感分数,并更新情感词典; 5)判断是否满足迭代终止条件,若不满足则转1);否则迭代终 止。(6)输出当前情感倾向分析模型对所有评论的判定结果。 3模型在产品评论中的应用 本文采用的数据集是淘宝网上与连衣裙相关的中文评论 性文章。本文对连衣裙数据集中的1489篇评论情感倾向进行了 人工标注。其中1375篇为积极的评论,i14篇为消极的评论。采 用准确率、精确度、召回率、三个指标进行性能评价。本文采用 的迭代终止条件是迭代次数达到阈值。实验结果显示:第i次迭 代后三个指标分别为0.68、0.91、0.72,随着迭代次数的增加, 三个指标也随着提高,当迭代次数达到阈值16次时,准确率为 0.87、精确度为0.92、召回率为0.94。通过分析数据可得,该模 型在评论文本中的表现较好,具有较高的准确率。 [参考文献] [1]庞博,等.使用机器学习技术的情感分类[C].自然语言处理中的实证方 法,ACL一02会议,2002:79—86. [2]宇弘,等.关于从观点中分离事实的研究[c].EMNLP一03,2003:129—136. [3]唐辉丰,等.使用标注和未标注文档进行文本分类[J]2000,39(2— 3):103—134. 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- igat.cn 版权所有 赣ICP备2024042791号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务