搜索
您的当前位置:首页正文

基于双向LSTM模型的文本情感分类

来源:爱go旅游网
2018年7月 第 39 卷第 7 期

计算机工程与设计

COMPUTERENGINEERINGANDDESIGN

July 2018Vol. 39 No. 7

基于双向LSTM模型的文本情感分类

任勉,甘刚+

(成都信息工程大学网络空间安全学院,四川成都610225)

摘要\"为解决文本情感分类研究中传统循环神经网络模型存在梯度消失和爆炸问题,提出一种基于双向长短时记忆循环

神经网络模型(Bi-LSTM)。通过双向传播机制获取文本中完整的上下文信息,采用CBOW模型训练词向量,减小词向量 间的稀疏度,结合栈式自编码深度神经网络作为分类器。实验结果表明,Bi-LSTM模型比传统循环神经网络LSTM模型分 类效果更好,对比实验中Bi-LSTM2能达到更优的召回率和准确率。关键词:双向长短时记忆循环神经网络&词向量;长短时记忆网络&循环神经网络;文本情感倾向性分析 中图法分类号! TP391.1 文献标识号:A 文章编号:1000-7024 (2018) 07-2064-05

doi: 10. 16208'. issnl000-7024. 2018. 07. 044

Sentiment analysis of text based on bi-directional long

short-term memory model

REN Mian, GAN Gang+

(College of Cybersecurity, Chengdu University of Information Technology, Chengdu 610225, China)

Abstract: To solve the sentiment analysis, a

problems of gradient neural

network model

disappearance based

and

explosion in long

the

traditional memory

on bi-directional short-term (Bi-LS

The bi-directional mechanism was used to obtain the complete context information in the text, and the continuous bag of words model was used to train the word vector to reduce the sparseness between the word vectors, and the s tack sel--coding depth neu­ral ne twork was used as

the classifier.

Experimental results

show

that

theBi-LSTM

model

isbette

neural ne twork LSTM model, and the Bi-LSTM2 can achieve better recall rate and accuracy.

Key words: Bi-LSTM; word vec t or; long shor - term memory; recurrent neural networks) sentiment analysis of text

/引言

通常对文本情感倾向性的传统方法有基于词典、基于

语义分析等[16]。在之前的自然语言处理中,通常针对文本 分类部分采用的是基于机器学习%&的分类算法。发展至今, 深度学习在自然语言处理中应用广泛。其中YongZhang等 提出基于卷积神经网络的语句建模情感分析方法%] , Bolan su等提出基于循环神经网络进行对文本的分词处理%]。但 这些方法存在训练过程中会丢失单词在上下文中关系的问 题,因此在后续的情感倾向性分析任务中引人了深度循环 神经网络。通过对比以上信息,循环神经网络中的长短期 记忆网络(long short-term memory, LSTM)作为语言模 型在解决文本分类问题上有很大的进步%0],但也存在梯度 消失和爆炸等问题,在上下文的记忆关联上也容易丢

收稿日期:2017-06-08;修订日期:2017-08-05基金项目:国家重大科技专项基金项目(2014ZX01032401-001)

失信息。

针对 , 本文提 基于 向 短 的神经网络模型(bi-directional long short-term memory, Bi- LSTM)。 通过该模型中的双向传播机制能降低上下文丢失 信息的情况,在文本情感分析任务中获得更好的分类效果。

1

相关工作

CBOW 模型

1. 1

本文采用 CBOW (continuous bag of words)来训练词 向量%1]。CBOW是一种预测模型,是从原始语句来推测目 标字词,在CBOW模型中,已知词w中上下文contoKw), 同时预测W,因此指定ccrn^cKw),词w就是一个正样本, 其它词就是负样本,可以通过采样负样本得到一个关于w 的负样本子集NEG(w),因此词的标签可以表示如下

作者简介:任勉(1992-),女,四川广元人,硕士研究生,研究方向为数据挖掘、网络舆情、信息安全;d通讯作者:甘刚(1974 -), 男,四川茂县人,硕士,教授,授研究方向为网络与信息系统安全、云计算与大数据安全、网络舆情。E-mail: test_me@

qq.com

第39卷第7期

任勉,甘刚:基于双向LSTM模型的文本情感分类• 2065 •

R1 =JX

) (-CBOW模型目标函数表示如下

gi10

3 1⑴

2

BI-LSTM模型设计

(1)

2.1 两种LSTM变型

() \"

(^ wBEEGw

)Pu JContexti()') (2)

其中

lstm-peephole 连接模型:

lstm-peephole连接模型(如图2所示)在LSTM单元 网络结构上增加了 peephole connection,控制门层接收输入

piu J(X^du),Lw(u)

=

1

Context iw) ) =

—a(X)du)Lw (F 3)

\" 0(1.2

LSTM

长短时记忆网络(LSTM)解决了长程依赖的问题, 不需要特别复杂地调试超参数,默认地记住了长期信息。 而且解决了传统RNN模型 梯度的消失 的问题[12]。

1为一个LSTM网络单元%3&,使用门控单元来控制 信息的流向。

图1中的zt代表输入门、〇^代表输出门、代表遗忘 门、G代表细胞控制单元结构。

LSTM单元结构中•是指神经元z到7’的连接权重, 神经元输入是用a表示,输出用6表示。

从细胞初始状态值到输入门状态值,遗忘门状态值和 输出门状态值的权重分别记做w。,以及w_,Sc表示 Cell的状态。

的激活函数用/表示,g,&分别表示的输

入输出激活函数。

首先计算时(3 =间内存单元状态z的输入z和C的值

t = ta-(nh(W^cx %t %#—Uch1— %1 % t)bc ) (4)ztWxtUb (5)

其次计算 / = (单元的 —的1 激活)值

taWfXt%Ufh%bf (6)

给定输 激活值zt, 激活值/,和候选状态值Q,计算G存储单元在时间上的新状态t

Ct

= it # Ct % ft # Ct-1

(7)

随着存储单元的新状态,我们可以计算其输出门激活

值,然后计算其输-(出值

\" W0xt %U#—1 %V0Ct%b0) (8)

的激活值,同

细胞状态的输入%415]。

改进的peepho(设计门结构用来除去或增加信息细胞

状态值,包含一个sigmoid神经网络层和一个逐点乘法操 。Sigmoid层输出%,1]间的数据, 之间有多少流量可以通过,0表示“禁止任何量通过”,1代表 “允许任意量通过”。

通常在语言模型中,我们可以基于已经看到的词来预 测下一个词,比如说“中国”-“北京”这对词组。一般细 胞状态可能包含 语句中主语的类别,选择出正确的代,在此 的 ,该结构 较为久的 。 在式(9)中,G-1代表前一个时序的向量,首先读取G-1 和Xt,输出一个在0到1之间的数值给每个细胞状态G-1 的数

ft = a(Wf • [C^—1 ,h—1 Xt] %bf ) (9)式(0)是确定更新的信息

i \" -(i .[G—1,#—1,x] %b) (10)

更新细胞状态在G-1状态的值更新为G,把旧状态 G-1与力相乘,丢弃将要确定丢弃的信息,加上zt 就

的 ,最 = 据 # —1 态% 的 # 程度进行变

CtftCztCt (11)

在语言模型的 ,如 先得到一个代词,可能需要输出与一个0 \" 与动-( 0\\的_信 息

tW • Ctyh—1 yxt]%b〇) (12)

通过确定需要输出的值来决定当前cell的状态,也是 一个过滤后的状态。首先运行一个sigmoid层来确定细胞状 态的哪个部分将输出出去。把细 态通过tanh进行处理,得到一个在一1到1之间的值并将它和sigmoid门的输

,最终输出确定输出的那部分。(2) coupled遗忘门和输入门

双门结构%6&通过使用coupled遗忘门和输入门如图

• 2066 •3所示。

计算机工程与设计

下文信息。

2018 年

其中一层信息在同一时步向前传递,更新所有隐含层 图3

coupled遗忘门和输入门

不同于其它结构中把遗忘门的更新信息与其它位置信 息分开,此结构可以同时完成把

信息更,在未

间段输 位

。输

的值到

已经忘记的旧信息的状态位置处

Ct

= ft # Ct-i % (1 一 ft) #

(13)

8

2基于Bi-LSTM模型的情感倾向性分类模型设计

通过改进两种LSTM模型后,结合分

基于双

向循环网络的情感倾向性分

型。

该模型主要分为

3个部分:词向量化、通过Bi-

LSTM特征提取、深度神经网络分 ,如图4所示。

词向量化部分:词向量通常用于分类的文本数据量比 较大,需要

未标注的普通文本数据中无 地学习

向量。

之前,通常的单独的符号,一 对应一个向量,

文本分

型中,将文章对应的

合并成一个向量,即把每一

对应的向量加到一起,此部分采用CBOW模型。

特征抽取部分:采用

Bi-LSTM作为特征提取部分模

型,同 该部分的矩形框单 一个LSTM单元,在后续的 Bi-LSTM型中,采用两种变型的LSTM模型。

训练层:通过构造两个循环神经网络实现以

两个不同的方向获取信息,同时这两层都连接相同的输入 层。这个结构能够提供一

单元结构完整的上

的信息

Kt = H(W$:xt %Whhht-1 %b^ )

(14)

另一层信息的传 与上一

通过先计算输出

得到不同方向的隐含层值

yt = Hyht %Whyht % by

(15)

情感分类层:此 用栈式 式神经网络作为分类器%7]。栈式

经网络参数

得。以包含2个隐

,输

softmax的神经网络。

3

实验

实验工具采用的是

TensorFlow,TensorFlow使用数据

流式 计算流程,它可以将计算映射到不同的硬件

和操作系统平台

Word本文使用

TensorFlow工具结合

2vec生成词向量并实现Bi-LSTM模型的训练。

LSTM本次实验设计两组对比实验,第一 利用不同的

单元结构进行对比,其中一个LSTM变型结构是

LSTM-peephole连接模型,另一个LSTM变型结构是coupled 遗忘门和输入门构成。第二组对比实验是基于Bi-LSTM和 LSTM结构,测试双向 网络结构对分类的影响。

3.1实验数据

实验语料来自Github上开源两万条中文标注预料,涉

及到

计算机、牛奶、 、

手机6个方面

的购物评论数。其中16 000条评论作为训练数据、4000条 为测试数据。另一部分语料 经标注分类的两万条微博数据,主要是针对网络上某

点事件的评论,其中

10 000条为积极评价,另10 000条为消极评价。其中以 15 000条作为训练数据,5000条作为测试数据。

3.2参数调整

先是利用语料文本生成词向量,首先使用

CBOW模

用少

估计。 型预测到

的目标

词汇为最高概率,同 测其它

为低概率。用编

造的噪声词汇训练的方法被称为Negative Sampling。这种

方法计算loss function有非常高的效率,方法 K个

的 。

过调

向量的维度、词频阈值、窗

口大小来调整参数。

先词向量的维度是从50到200之间进行测试,通过

测试发

向量维度在120左

,测

试数据

F值最优,

如图5所示。

由于词频阈值在小于5时不能生成词向量同时也会造 成不能产

因此词频阈 为5。

窗口大小在训练过程中接近20时为准确率最高,如图 6 所

在训练

Bi-LSTM时,通过损失值来观察迭代次数。在

第39卷第7期

任勉,甘刚:基于双向LSTM模型的文本情感分类• 2067 •

图5基于词向量维度增长的F值变化

dd 87 6 d 5 4 迴3

齋d 锻d 每

d

图6基于窗口大小增长的准确率值变化

实验过程中,发现使用LSTM模型时,迭代次数到5之后 损失值维持不变,而

Bi-LSTM

在迭代次数到10时损失值

维持不变,如图7所示。

d8d76d5d4d32d1

dd〇

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

迭代次数

LSTM

-m- Bi-LSTM

图7基于迭代次数增加损失值变化

最后分类器训练结果是一个[0, 1]区间的连续的实 数,而程序的在默认的情况下将0.5设置为阈值,因此最 后将大于0. 5的值判断为正,小于0. 5的结果判断为负。 3.3实验结果分析

本实验通过两组对比实验,分析YSTM的两种变型结 构与Bi-LSTM模型之间的评价指标数据。

先第一

利用不同的LSTM单元结构进行对比,

第一组LSTM变型结构是LSTM-peephole连接模型,另一 个是coupled遗忘门和输入门在下表中分别称为Bi-LSTM-1 与 Bi-LSTM-2,见表 1。

第二组对比实验是通过分析标准LSTM与Bi-LSTM之 间的差异,见表2。

表1两种LSTM结构对比

模型结构

准确率

召回率

Bi-LSTM-1

0.75210. 7415Bi-LSTM-20.82360. 8125

表2 标准LSTM与Bi-LSTM对比

型结构

LSTM0.78590. 7654Bi-LSTM0.84210. 8658

下面对实验结果数据进行分析:(1)根据第一组的对比实验看,LSTM结构的两种变 型运用在情感分类的语言模型中,第二种模型使用coupled 遗忘门和输入门的结构有较高的准确率。

\")从第二组对比实验来看,使用双向循环神经网络 对只使用单层LSTM结构准 要高,说明使用 文信

息之间

同时考虑时序

的这种方式能够更好地解决

文本情感倾向性分

4结束语

本文在总结之间的文本情感分类基础上,提出一种Bi-

LSTM 语言模型来完成对文本倾向性 的分类 ,通过

序 列向前和向后的两 经网络,得到完整的过

来的上下文信息。通过实验对比不同的LSTM变型结构,

结合深度神经网络分

更好地完成分类任务,得到双向

网络结构能更好地解

文联系的

。本 验

同时也有待完善的部分,如在语料的 ,需要对比

不同语料的分类情况来完善模型, 续的工

进这一部分并研究不同的分类器构造方法。

参考文献:

[1]

XING Yunfei. Research on the characteristics and path of net­work public opinion information transmission inmobile environ­ment [D]. Changchun: Jilin University, 2016 (in Chinese).

[邢云

.移动环境下网络舆情信息传播特征及路径研究

[D].长春:吉林大学,2016.]

%] HU Gaili, Chen Ting, CHEN Fuji. A literature review on the network of public opinion in China [J]. Information Science,

2016, 34 (1): 160-166 (in Chinese).[胡改丽,陈',陈福 集.我国网络舆情热度分析文献综述[J].情报科学,2016, 34 (1): 160-166.][3] Chun Liao,

Chong Feng, Sen Yang. Topic-related Chinese

message sentiment analysis [J]. Neurocomputing, 2016, 210

(1): 237-246

[4] Chen Tao, Xu Ruifeng, Yang Sen. Improving sentiment anal­

ysis via sentence type classification using BiLSTM-CRF and CNN [J

]. Expert Systems with Applications, 2016, 72

• 2068 •

计算机工程与设计2018 年

(10): 221-230.[5] Fu Xinghua, LiuWangwang,XuYingying, Combine HowNet

lexicon to train phrase recursive autoencoder for sentence-level sentiment analysis [J], Neurocomputing, 2017, 241 (79):

nectionist language models in improving LSTM-based Arabic text recognition in videos [J], Pattern Recognition, 2017,

41 (5): 245-254.

[13] Chen Tao, Rui Feng, He Yulan. Improving sentiment analy­

sis via sentence type classification using BiLSTM-CRF and

CNN [J], Expert Systems with Application, 2017, 72

18-27.

[6] Meng JE, YongZ, Ning W. Attention pooling-based convolu­

tional neur-1 network for sentence modelling [J], Information

Sciences,2016,373 (4): 388-403,

(15): 221-231.

[14] Greff K, Srivastava K, Koutnik J. LSTM: A search space

odyssey [J], IEEE Transactions on Neural Networks and Learning Systems, 2017 (99): 1-11.

[7] Su B, Lu Shijian, Chu Chingyun. Accurate recognition of words in scenss without character segmentation using recurrent neural ne--

work [J]. Pattern Recogniton, 2017, 34 (1): 397-405.

[8] Taft M, Xu J, Chowdhury V. Letter coding in visual word

recognition: The impact of embedded words [J], Journal of Memory and Language, 2017, 25 (2): 14-25.

[15] Nogueira C, Stanos D, GattiR, Deep convolutional neural

networks for sentiment analysis [C] //25th International

Conference on Computational. Ireland: Technical Papers,

[9] Liao Chun, Yang Sen, Huang Heyan. Topic-related Chinese

message sentiment analysis [J], Neurocomputing, 2016, 14

2014: 23-29.

[16] Wei Jiamei,PeiE,Jiang Dongmei,

Multimodal continuous

affect recognition based on LSTM and multiple kernll learning

(10): 237-246.

[10] Ren Yafeng, WangRuimin,Ji Donghong. A topic-enhanced

word embedding for Twitter sentiment classification [J]. Electronic Letters, 2016, 10 (11): 188-198.

[C] //Sigml and Information Processing Association Annuli

Summit and Conference. Piscataway, NJ: IEEE, 2014:

1-4.

[17] Severyn A, Moschitti A, Chu Chingyun.

Learning to rank

text :pairs w ith convolutionalal. short FaDA Fattdocument deep neural network

[11] Lohar P, Ganguly D, AfliH,et

aligner using word embedding [J]. Prague Bulletin of Mathe-

maticll Linguistics, 2016, 106 (1): 169-179.

[C] //38th International ACM SIGIRConference on Research

and Development in Information Retrievll Symposium on Cir­cuits and Systems. Newyork: ACM,2015 : 373-382.

[12] Yousfi S,Berrani S, Garcia C. Contribution of recurrent con-

(上接第2063页)

[11] LI Qingwu, QIU Chunchun, YU Kai,et al. Rell time pe­

destrian detection based on multi-scale aggregation channel £ea- turss [J], Journll of Electronic Measurement and Instrumen­tation, 2015,29 (11): 1691-1697 (inChinese)

[13] Ba LJ, Frey B. Adaptive dropout for training deep neunl ne--

works [J]. Advances in Neural Information Processing Sys­tems, 2013: 3084-3092.

.[李庆武, [14] Jia Y, Shelhamer E, Donahue J, et al. Caffe: Convolutional

architecture for fast feature embedding [C] //Proceedings of the 22nd ACM International Conference on Multimedia. ACM,2014: 675-678.

仇春春,俞措,等.基于多尺度聚合通道特征的实时行人检测 [].电子测量与仪器学报,2015, 29 (1): 1691-1697.][12] Rothe R, Guillaumin M, Van Gool L.

dows [C

Non-maximum sup­

pression for objett detection by passing messagss between win­

] //Asian Conference on Computer Vision. Sprin­

[15] Dollar P, Wojek C, Schiele B, et al. Pedestrian detection: An

evaluation of the state of the art [J], IEEE Transactions on Pa--temAnalysisQ Machine Intelligence,2012, 34 (4): 743-761.

ger, Cham, 2014: 290-306.

因篇幅问题不能全部显示,请点此查看更多更全内容

Top