您好,欢迎来到爱go旅游网。
搜索
您的当前位置:首页基于机器学习的政务微博评论情感分类研究

基于机器学习的政务微博评论情感分类研究

来源:爱go旅游网
现代商贸工业Modern Business Trade Induslxy ]基于机器学习的政务微博评论情感分类研究魏姮清(武汉理工大学管理学院,湖北武汉430070)摘 要:微博因其信息传播快- 强成为公众参与民主政治讨论的新渠道;各级 过开设政务微博 与民众 的 。对 微博的评论数据进行情感分析,及时掌握公众对热点舆情事件的情 向,提 平,也能在 网环境下 。在 Word2vec构建词向量的 ,运用SVM和RF对文本进行情感分析。 ,SVM在进行 微博评论分类具有更高的分 。关键词:机器学习;政务微博;情感分析中图分类号:D9

文献标识码:A

doi!0. 19311/j. cnki. 16723198 2020. 11. 0790引言政 是指政府在互联网上开设的 开展政的微博。第43次《中国互联网络发展状况统计

报告》中数据表明:截至2018年12月中国网民 8 29亿,互联网普及率 59. 6%,3. 94亿网民使线上政 ,占整体网民的47.《%&网 政时\"下,政务微博因 ' 、交互 特点,成为政 构实践政务管理的主要媒介 众 信息和表 见的重要平台&通过対政雾微博的评论数据进行情感分析,了解 众在热点话题中的情 向, 众 微博舆论的发展趋势,有 提升政民交 平& 研究不同的分类器 众 政务微博的在线 文本情感分类 率,以便政务微博在热点舆情 中众的情 向。1相关技术1.1 Word2vecWord2vec分布式的词向量训 ,将词汇以向 式展现出来,从而 将目标文 向量的目的,然后更好地 情感分析的 &1.2 SVM支持向 是一种基于统计学习理论的机器学习许多领&基于SVM的分类 主要 二 式分类 &经SVM分类后,属于不同类数据集中的 位于一个最优超平面的不同侧而且训练集中的正例 例点间的边距(margin)最大A,使 类的分类间隔最—&1\" RF随机森 要在训练集中随 一个集,再根据决 构造子集分类器。决 分类器的数量K需要在 前 生成,然后 集的数量2用 论情感分析2 1 微博数据采集下的 具有 的情 向,故本文 政务微博,基于Python网 技| 了2019年受 的热 舆情 下中国警方在线%@中国警察网平安洛阳平安北京”等 政务微博下的 信息,在完整的URL请求发送后,Lxml对网页信息进行解析,获取在重大舆情 : 下政务微博的 ' 信息,并以此为基础进情感分类研究&2.2数据预处理2. 2. 1 数据2. 2. 2 数据集和人经数据清洗后,得到9395条微博 ,包括4869条向,,4526 向 ,部分数 表1。语料库中随 .80%作为训练集,20%作为 ,用于政务微博情感分类模型的构建,语料分布情况如表2所示&表1政务微博评论及情感倾向评论蛮尽了, 众的反 挺及时,她违反了交通 ,做出了处罚,她触的 ,也作出了刑拘处理。对警方通报不满意,坐等&情感倾向数据标注1正向负向负向001只

认她 ,现在只听官方单方面说,长时间了,官方话不可信。感谢警方没有让这件事烂尾!正向2

语料库料分 况向语料3621905向语料3896总计7517训练集集计97348691878452693952. 2. 3 对评论文本进行分词和去停用词处在文本中使用频率很高,但不具有检索 、不能表达文 的词语即为 。本文 工大 表,在 分词处理时,将 的:与匹配,匹配成功,就将这个词去掉,否则就保 下 经去 后的部分 文本分词后的结果表3。3经去停用词和分词后的部分评论文本分我在东北,过 谢有绵阳警方东北 过来 感谢 绵阳 警方的好警察,人民放 警察人民放绵阳警方的工作态度还是值得点绵阳点赞的警工作态度值得作为大连人看

的微博 寒了微博和大连大连 看让大连公公安微博大连公安微博 大连

真心对比寒弄中国警方在线 微博, 菲众,时刻 民群众的重大事,辛苦了!头部那几下重击好可怕中国心系众在线刻重大官方关注苦微博民头部下重好可怕不相信当 情伤感觉肯很严重不要放过一个坏人不相信当 情伤觉肯定很严重不要 放过 坏在微博 中存在一些网络链接、在博主发文下方@其他的明星 网友以及“转发微博%转发图 片”等,对情感分析的 会产生干扰,予以删除&2. 3 基于Word2vec的词向量在进行Word2vec的 文本向量表达时,Skip-作者简介:魏姮清(1995 —),女,汉族,湖北宜昌人,硕士,武汉理工大学,研究方向:信息管理与信息系统。现代商贸工业 2020年第11期 161政策与商法研究I语间的语

。 例

的表现Skip-gram 库进行向量表达,并g化成特征尚量的格式& ”骤加卞:gam 的 在 CBOW 更好,因

情 , 计 式 (4*:2 g PecBon gRecall Precisinn +Recall果&心外、(1* 下文 的 ,实验中将为5。(2)基于精确度的

如:可怕\"的词向

In [21] : w2v.wv[\"W\"lOut(21]: array([-001923603

09681892 02985S88 02231164 0S668839 03132S26 00704S57 07491163 00609034 01398187 0364626 07051€24 0123547 00811378 02249S29 07386756 0206091€ 018378S1 0408273 0628SSS9 04480229 12396874 02371453 07737582 03293564 08134864 00642216 0050741 01785317 00159366 01438515 04841965 01853270 02352707 11831215 0€810€67 06632086 02499398 00216132 02723092 12050604 0015S102 00512413 02900962 01480268 00724276 04199455 0585794S 0S013372 012SG311 10S10136 00768733 02568805 05662802 00020903 032417S3 07306232 03824653 05603924 0009€467,词向量维度选择300。例1所示&0007377 03423784 03086538 04652022 02855041 00342941 0S532987 00255926 14315921 08282719 06181728 01995298 01055336 05918461 00561221 08728141 14185615 08820802 14277475 17809546 07456064 14481111 01799619 04190971 06981251 04933529 03624603 04612299 12242651 0347144 0262208 03981037 00293603 01002742 05625745 01221126 07979675 06462193 00132339 07127014 01040507 0015248 06399087 01942531 03080114 02839S15 05327526 13050438 01845442 00636331 03124507 0353476 00606511 04047481 0329018 05784925 02793606 00413033 02097125 0259743B2.4.2 微博评论情感分

(1) 支持向 情感分类

04251761 05810354 06017527 02048158 0S€19S58 03857692 04952435 02€414€2 05468189 03428966 00322817 08532371 02000511 0181S335 09504066 0140S51 0484324 04512356 025G2644 10055171 03831559 08936246 04S40702 00952542 03505319 00223926 0S348864 06831€8 07838932 04934741 04012575 01212817 02859562 04014032 04403892 00928134 02004768 01692105 00253022 02940563 01644542 00141139 07287695 02481903 04414375 0S179668 00390712 04327781 00493107 02409306 0S316874 02376078 0€061917 04279476 00223372 01019133 05S48963 01708S48 0S692313 1278077203613203, 02447239, 06660105, 06168026, 05000542, 04S7S307, 01095064, 07423229, 0022704 , 03449227, 01261381, 14631222, 04804551, 07282688, 06283535, 01963137, 0S699€95, 01037211, 026S71S2, 03002307, 11251874, 032337S2, 00192625, 11728409, 05145117, 00S74974, 09243352, 07556996, 02944995, 06260303, 00549251, 01424227, 01561744, 06888735, 05614448, 10166308, 02162714, 13418321, 00888911, 07480373, 10752229, 04524712, 08711482, 06211916Z 05634598, 02920082, 04091891, 13993920, 0122899 , 014189S4, 0B94S651, 05200548, l*7180836z 09076099, 02012902, 04411228, 0B898084, 05168997, 01392291, 03G1142 ,00434406, 04273675, 08285648, 02726142, 02665614, 01440702, 081916€2r 02796243, 10236841, 05431299z 02497535, 06203252, 01893 ,06798105, 04481772, 04115195, 00179419, 0431748 , 07314779, 056933€2, 00447845, 06975207, 06845136, 07S83342, 06333594, 00317237, 06679387, 01378746, 01142938, 0412827 , 04754533, 04242923, 0139687 , 07192256, 04020628, 13306671, 04413408, 00945978, 01881627, 01779155, 05796301, 04056149“ 00464064, 00774317, 01022195, 0362813 , 05304243“ 04697328^ 01383355, 13294268, 06S9831Sr 11311081, 05023827, 05851443, 02862216, 02837037, 067€839S, 08207003, 010S4378z 05473549],的sklearn

后的

的训练数据集,采用Python平台下块实现支持向 ,测试数据集分布情况如表5所示&5

SVM模型预测结果正面情感

正面情感 负面情感

—77

130

负面情感195775—根据SVM : , 文中 的t确率、查准率、召回率和F1评分 式,可以 基于SVM 的微博 情 分类 的评7情况&6

情感类别

Accuracy

82.69%

SVM 模Precision Recall 85. 77%

79. 95%

F182. 75%正面情感

负面情感

79.91% 85.74% 82.72%文 的训练数据集,采用sklearn算法模块实现随机森 , 函数在Decision TreeClassifier类下,部分 数按 统默认值处理,对测试数据集 后的 分布情况如表7所示&7 RF模预测预测值真实汇7^情733163(2) 随机森林情感分类模型&情240情情742图“可怕”词向量语料库中训练出合适的词向量的基,评论文 的特征向 每条微博 文中所有词语的词向量累后求平 &2.4情感模型分析与2. 4. 1分类模型评价指(3)在大

基 RF 8 所 。情 类

的微博

8 RF模情 分类 表AccuracyPrecision8180%7556%Recal7533%8198%F17843%7864%7875%情为了 不同的分类 进 ,的 标。在本文中,微博 情 分析为二分类问题, 标需要 向 向两个的 ,考虑训 不 的数量如表4。4模预测

真实汇预测值

3估 的 可以发现,SV RF算,SVM 项指标的 估 优于RF,见表6与表8 &因此,Word2vec与SVM §合情 分析 , 能 更 的 政 微博 的 情向&在热点舆情 中,政府管理部门可利庄半结构化或非结构化数据, 以 的舆情态势以支持政府决策&参考文献[1]陈婷,陈文春.基于用户体验的便民类政务微博质量提升策略

[J*.《 ,2019,(02)9294,97.汪祖柱,阮振秋.《 规则的政务微博公众评论观m挖掘[J*.情报科学,2017,35(08) : 19-22.情况情FNTN情TPFP情情率、召回率、F1 率 标是数据挖掘 中常用的 标准&下标准进 介绍:率(Accuracy)表示训练模型对样本的分类性

能,公式如(1):_ TP + TPAccurary 丁卩 +F3 + TN + FN ()率(Precision)表 一类别中训 ;型预测数 际数量的比例,公式如(2):_ TPPrecision =Tp +pp (2)王 ,薛可,何佳.政务微博议程 对受众城

的研究——以微博“上海发布”为例[J*.电

55-62象认知影响,2018,(06):牛雪莹,赵恩莹.基于Word2Vec的微博文本分类研究[J*.计算 机系统应用,2019,28(08):256261.[5* Li S, Wang Z,Zhou G,et al. Semi-Supervised Learning for

率(Recall)表 一类别中训 数类 际记录数量的比例。公式如(3):TPRecall(3)TP +FN统计学领域,F1值(F-core)是对二分类 的精度进行衡量的一 标准,该指标兼具 率率的特点,F1值在0至1之间,4 162 现代商贸工业

2020年第11期Imbalanced Sentiment Classification [ C *. Proceedings of International Joint Conference on Artificial Intelligence,2011:

1826-831)* Liu S,Li F,Li F,et al. Adaptive cotraining SVM for sentiment

classification on tweets [C*. ACM Internationll Conference on Information ' Knowledge Management. ACM,2013:20792088.)*陈珂,黎树俊,谢博.基于半监督学习的微博情感分析[J*.计算机

与数 程,201846(09):18501855.向分析系统的研究与实现[D*.北京:北)*彭陶.基于微博的情

电大学,2016.

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- igat.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务