Overview on Sentiment Analysis of Chinese Microblog Based on Deep Learning 崔圣杰* 李珊珊 孙 琦 **CUI Sheng-jie LI Shan-shan SUN Qi 摘 要 随着21世纪互联网的迅速发展,微博作为一种新型媒体,也成为人们在网络上分享、交流信息和抒发
情感的重要工具。随着大数据的分析与研究的热潮,对微博文本信息的舆情监控、商业决策以及情感分析也蕴藏着极大的商业价值。微博情感分析基于微博语料库预处理、微博文本情感特征抽取和微博情感分类三个步骤。本文主要介绍了利用深度学习进行微博情感分析的步骤和方法。
关键词 深度学习;情感分类;微博文本;数据分析
Abstract With the rapid development of the Internet in the 21st century, microblog as a new type of media has become an important tool,which people to share, exchange information and express emotions on the Internet.In addition, with the upsurge of big data analysis and research, microblog informations are also contain great commercial value on public opinion monitoring, business decisions and sentiment analysis.The task of microblog emotion analysis is divided into three steps: the pre-processing of microblog corpus, the extraction of emotion feature in microblog text and the classification of emotion in microblog.This paper mainly introduces the classification method of emotion in microblog texts by deep learning.
Key words Deep learning; Sentiment analysis; Microblog text; Data analysis
doi:10.3969/j.issn.1672-9528.2019.06.048
1 引言
近年来,随着21世纪互联网的迅速发展,微博作为一种新型媒体,具有便利性和时效性的特点,因此得到了许多网上用户的青睐[1]。截至2019年6月底,中国的微博用户数量已从2010年底的6,311万增加到1.95亿。据官方统计,微博用户每天发布的平均视频和直播数量达到150万。微博用户每天发布的平均图片数量达到1.2亿,而微博用户平均发布长文本和文字数量分别达到48万条和1.3亿条左右。
人们喜欢在微博上发表意见、表达情感、交流信息等,比如社会热点话题、国内国外新闻事件、热门电影评论等[2]。通过人们每天在微博上发表的意见会产生许多的在线数据文
本信息,而这些观点通常包含这大量的情感信息,因此通过分析这些微博在线文本信息,可以了解人们对该事件的看法和观点。
情感分析主要研究人们对某个产品、或者事件和话题等表达出来的情绪和态度[3]。而基于微博文本信息的情感分析,不仅可以拓展丰富公司的营销方向,还可以帮助完善网络的舆情系统,并且通过情感心理学的分析,实现对异常和突发事件的检测等。此外,现今社会学、心理学、金融学等相关领域也有微博情感分析的大量的应用和研究。
本文总结了对微博文本中与情感分析相关领域的方法,并将微博文本情感分析归纳为三个步骤: 微博语料库的预处理、微博文本情感特征的抽取和微博情感的分类。微博语料的预处理包括对语料进行分词词性标注、停用词的删除、句法分析等。微博文本情感特征的提取是根据预处理的结果,按照一定的抽取规则挖掘出微博文本带中具有情感的特征;微博情感极性的分类则是利用情感词典、机器学习或者深度学习方法对提取的情感特征进行最终分类。2 微博语料的预处理
微博语料库的预处理是微博情感极性分析的首要阶段,
2019年第6期149* 山东英才学院信息工程学院 山东济南 250104**中国联合网络通信有限公司山东省分公司 山东济南[基金项目] 山东省自然科学基金(ZR2016FM34);山东省高等学校科研计划(J18KA375);山东英才学院校级课题(18YCZDXSZR01,18YCYBZR01,19YCSBKT13, 19YCSBKT16,19YCXSZZ39, 19YCXSZZ40, 19YCXSZZ43, 19YCXSZC14)
研究与探讨信息技术与信息化包括分词、删除停用词、词性标注和句法分析等步骤。将非结构化原始数据转换为计算机可以识别的结构化数据[4]。微博语料的分词是将句子文本切分成一个一个词语,中文文本没有像英文文本中的空格可以直接将句子切分词语,因此,中文分词相对复杂。可以通过将句子文本与词典中的字符串匹配进行分词的方法;也可以引入语义和句法分析的分词方法[5];基于概率统计模型的分词方法,比如HMM(Hidden Markov Model,隐马尔科夫模型)、CRF(Canditional Ran-dom Field,条件随机场)、MI(Mutual Information,互信息)。对微博语料库的分词之后,判断分词后的每个词语的词性,包括动词、名词、形容词、介词、副词等。在微博语料库分词后,再删除停用词,包括介词、虚词、代词等。最后再根据句法语法分析归纳出微博文本中的主语、宾语以及谓语的句法结构。微博语料库的预处理流程图如1所示。
图1 微博语料库的预处理流程图
3 微博文本情感特征的抽取
在对微博文本的情感极性分类之前,有必要将非结构化的原始数据转换为可由计算机可以识别的结构化数据。因此,文本表示模型和相应的特征选择与特征权重计算理论应运而生[6]。目前,最常用的文本分类是VSM(向量空间模型,Vector Space Model),它结合了文本特征和相应的特征权重形成文本的特征向量。
(1)基于情感词典的特征:首先构建情感词典,然后使用情感词典判断微博文本中相应词语的极性,同时使用Word2Vec、Doc2Vec得到语义相似度并通过同义词典确定未注册单词的极性。例如王晓东等人在文献[7]提出的On-tology 模型,首先构建情感Ontology,然后基于构建的情感Ontology抽取能够代表文本情感的特征词语,并判断词语的情感极性,最后通过抽取文本中的特征词语对文本的情感极性进行判断。王素格等人在文献[8]中提出了基于同义词的词汇情感倾向判别方法,该文主要依据其同义词之间在情感分析上具有相同的倾向性,建立词汇情感分析词典。基于情感词典的特征情感分析方法困难在于情感词典的构建,随着时间的发展,微博上的网络新词汇也越来越多,也给情感词典的构建带来了困难。
(2)基于大规模语料的统计特征:首先利用数据挖掘方法对大规模语料抽取一些语法规则特征,然后再利用机器学习算法对文本中的词汇进行情感分析。例如,文献[9]建立了二元语法依赖的情感倾向互信息特征模型,然后通过机器学习算法得到情感分类器,然后对文本进行情感分析和判断。
(3)基于微博表情的特征:作为表达观点和表达情感
1502019年第6期的短文,微博用户经常通过表情表达自己的情感。在微博上常用的表情符号如图2所示。例如文献[10]提出一种基于深度学习的多维特征情感分析方法,在多维特征中就引入结合了微博表情特征进行情感分析。随着微博表情的使用率越来越高,引入微博表情特征进行情感分析也获得专家们的认可。
图2 微博表情符号
4 基于深度学习的微博情感分析
机器学习的一个重要研究领域是深度学习。其中CNN,(卷积神经网络)和RNN(递归神经网络)经常被用作情感极性分析的模型工具。Cao等人在文献[11]用CNN卷积神经网络构建句子的特征向量,然后利用支持向量机SVM实现对微博语句的情感分析。SUN等人在文献[12]中提出了扩展内容的卷积神经网络CNN微博情感分析,作者利用若干条评论把一条微博扩展到多条微博语料的结合解决一条微博短小稀疏的问题。Tong等人在文献[13]中提出了基于递归神经网络RNN的微博情感分析方法,该方法首先利用RNN训练微博语料的词向量,然后再利用RNN训练得到微博语料的句子向量,通过这种训练方法获得的句子向量即包含词的语义又包含序列特征。Tang等人在文献[14]中提出了基于LSTM(Long Short Term Memory)微博情感分析方法,主要从文本方向实现微博情感分析。Yanmei等人在文献[15]中提出了结合卷积神经网络CNN和递归神经网络RNN的微博情感分析方法,该方法首先利用卷积神经网络CNN学习特征向量,然后再利用递归神经网络RNN训练分类器进行微博情感分析。
参考文献
[1] Ravi K, Ravi V. A survey on opinion mining and sentiment analysis[J]. Knowledge-Based Systems, 2015, 89(C):14-46.[2] 邓洋. 使用深度学习技术的中文微博情感分析研究[D].[3] 贾治中.基于依存句法分析的中文评价对象抽取和情感倾向性分析[D].东南大学.
[4] 游建平. 基于语义情感空间模型的微博情感倾向性研究
信息技术与信息化[D]. 暨南大学.
[5] Smeaton A F. Natural language processing and information retrieval.[J]. Information Processing & Management, 2001, 26(1):19-20.
[6] 张俊东. 基于机器学习的微博情感分析及应用[D]. 2017.[7] 王 晓东, 刘倩, 陶县俊. 情感Ontology构建与文本倾向性分析[J]. 计算机工程与应用, 2010, 46(30):117-120.
[8] 王素格, 李德玉, 魏英杰, et al. 基于同义词的词汇情感倾向判别方法[J]. 中文信息学报, 2009, 23(5).
[9] 张靖, 金浩. 汉语词语情感倾向自动判断研究[J]. 计算机工程, 2010, 36(23):194-196.
[10] 金志刚, 胡博宏, 张瑞. 基于深度学习的多维特征微博情感分析[J]. 中南大学学报(自然科学版), 2018, v.49;No.285(05):117-122.
[11] Cao Y , Xu R , Chen T . Combining Convolutional Neural Network and Support Vector Machine for Sentiment Classifi ca-tion[C]// Chinese National Conference on Social Media Process-ing. Springer, Singapore, 2015.
[12] Sun X , Gao F , Li C , et al. Chinese microblog sentiment
研究与探讨classifi cation based on convolution neural network with content extension method[C]// 2015 International Conference on Affec-tive Computing and Intelligent Interaction (ACII). IEEE Comput-er Society, 2015.
[13] Tong Y , Zhang Y , Jiang Y . Study of Sentiment Classifi -cation for Chinese Microblog Based on Recurrent Neural Net-work[J]. Chinese Journal of Electronics, 2016, 25(4):601-607.[14] Tang D, Qin B, Liu T. Document Modeling with Gated Re-current Neural Network for Sentiment Classifi cation[C]// Con-ference on Empirical Methods in Natural Language Processing, 2015:1422-1432.
[15] Yanmei L , Yuda C . Research on Chinese Mi-cro-Blog Sentiment Analysis Based on Deep Learn-ing[C]// 2015 8th International Symposium on Compu-tational Intelligence and Design (ISCID). IEEE, 2015.
(收稿日期:2019-05-29)
(上接148页)
和FILTER参数进行筛选。
3 .4.2 异构数据库需在源端创建defgen文件
当源端与目的端为不同的数据库平台,同步数据必须利用结构转换文件defgen,在源端配置defgen参数,并创建defgen文件,然后将生成的defgen文件拷贝到目标端相同位置;
3.4.3 OGG下登录不同数据库平台命令略有不同
在OGG软件安装过程中需要在GGSCI命令下登录数据库,登录不同的数据库平台,登录命令略有不同,其中登录MYSQL命令为dblogin sourcedb dbname,userid dbuser,password dbpassword,登录ORACLE命令为dblogin dbuse,password dbpassword,登录SQL SERVER命令为dblogin sourcedb dbname userid dbuser password dbpassword;4 结束语
本文介绍了通过 OGG技术实现基于异构平台的多对一数据库实时高效的数据同步,完成了从源端业务系统监控数据库读取日志信息并写入监控数据库的流程。OGG技术的应用,满足了实现了跨数据库平台的数据收集需求,在数据收集中基本实现了实时收集,且收集数据准确率完整率均达到实际需求,为业务监控系统提供了实时、高效、可靠的数据源。
参考文献:
[1] 潘毅.异构数据库同步问题研究[J].网络安全, 2009(6),34-35
[2] 张浩然,余春琴.Oracle GoldenGate实现数据迁移与同步. 计算机科学,2016(27) ,200
[3]一种基于OGG方式进行数据迁移的研究 贾海军 软件 2015 第36卷 第5期 140-144
[4]俞凯晟.Oracle GoldenGate软件在数据迁移中的应用[J].微型电脑应用,2012(4) :47-50.
[5]龚艳.通过Oracle GoldenGate 实现灵活实时的数据推送[J].信息与电脑(理论版) ,2012(3):116-117.
[6] https://wenku.baidu.com/view/7692c9d7b14e852458fb5741.html
[7] http://www.doc88.com/p-305515912375.html【作者简介】
卓凤艳(1979-),女,汉,宁夏银川人,硕士,气象高级工程师,研究方向:信息系统运维管理及软件开发;
姜娜娜(1987-),通信作者,女,宁夏平罗人,硕士,工程师,主要从事信息网络技术保障及软件开发与应用研究。
(收稿日期:2019-05-20)
2019年第6期151
因篇幅问题不能全部显示,请点此查看更多更全内容