针对情感分析任务中没有充分利用现有的语言知识和情感资源,以及在序列模型中存在的问题:模型会将输入文本序列解码为某一个特定的长度向量,如果向量的长度设定过短,会造成输入文本信息丢失.提出了一种基于多通道特征和自注意力的双向LSTM情感分类方法(MFSA-BiLSTM),该模型对情感分析任务中现有的语言知识和情感资源进行建模,形成不同的特征通道,并使用自注意力重点关注加强这些情感信息.MFSA-BiLSTM可以充分挖掘句子中的情感目标词和情感极性词之间的关系,且不依赖人工整理的情感词典.另外,在MFSA-BiLSTM模型的基础上,针对文档级文本分类任务提出了MFSA-BiLSTM-D模型.该模型先训练得到文档的所有的句子表达,再得到整个文档表示.最后,对5个基线数据集进行了实验验证.结果表明:在大多数情况下,MFSA-BiLSTM和MFSA-BiLSTM-D这两个模型在分类精度上优于其他先进的文本分类方法.
The purpose of this study is for the problem that the existing language knowledge and emotion resources are not fully utilized in the emotion analysis tasks, as well as the problems in the sequence model: the model will decode the input text sequence into a specific length vector, if the length of the vector is set too short, the information of input text will be lost. A bidirectional LSTM sentiment classification method is proposed based on multi-channel features and self-attention (MFSA-BiLSTM). This method models the existing linguistic knowledge and sentiment resources in sentiment analysis tasks to form different feature channels, and uses self-attention mechanism to focus on sentiment information. MFSA-BiLSTM model can fully explore the relationship between sentiment target words and sentiment polar words in a sentence, and does not rely on a manually compiled sentiment lexicon. In addition, this study proposes the MFSA- BiLSTM-D model based on the MFSA-BiLSTM model for document-level text classification tasks. The model first obtains all sentence expressions of the document through training, and then gets the entire document representation. Finally, experimental verifications are conducted on five sentiment classification datasets. The results show that MFSA-BiLSTM and MFSA-BiLSTM-D are superior to other state-of-the-art text classification methods in terms of classification accuracy in most cases.
随着深度学习技术的发展, 基于神经网络的方法成为主流, 被广泛地应用于自然语言处理(NLP)领域中.与传统的机器学习方法相比, 深度学习在情感分析上表现得更为优秀, 其不需要建立情感词典.深度学习能够自动捕捉从数据本身到高层更为复杂的语义映射, 在性能上体现出比以往方法更好的效果.递归自动编码器[
虽然这些神经网络模型在情感分类任务中取得了巨大的成功, 但依然存在着一些缺陷:
首先, 忽略了情感分析任务中现有的语言知识和情感资源, 不能充分地利用这些情感特征信息; 其次, 语言知识(如情感词汇、否定词和程度副词等), 在神经网络模型中未被充分使用.Chen等人[
另外, 在深度学习中, 很多的NLP任务都可以看作是一个序列建模任务(sequence modeling).而序列模型存在一个问题: 无论输入的文本序列的长度为多少, 最终都会将这个文本序列解码成为某一个特定的长度向量.如果设定的向量长度过短, 那么会造成输入文本信息丢失, 最后会导致文本误判.Pei等人[
针对以上问题, 本文提出了一种基于多通道特征和自注意力的双向LSTM情感分类方法(MFSA-BiLSTM), 模型由两部分组成: 多通道特征和自注意力机制(self-attention).首先, 本文对情感分析任务中现有的语言知识和情感资源进行建模, 将输入文本句子中的词向量与词性特征向量, 位置特征向量和依存特征向量三者进行结合形成不同的特征通道向量作为BiLSTM输入, 让模型从不同的角度去学习句子中的情感特征信息, 挖掘句子中不同方面的隐藏信息.然后, 将这3个特征通道向量与3个BiLSTM的输出向量进行结合, 再利用自注意力模型来发现句子中的重要信息, 并对这些重要信息进行重点关注加强.本文采用的自注意力是注意力的一种特殊情况.与传统的注意力机制不同的是, 自注意机制能够减少对外部信息的依赖, 无视词与词之间的距离, 直接计算依赖关系, 学习每个词对句子情感倾向的权重分布, 重点关注以及加强句子中的情感特征, 可以使模型学习到更多的隐藏特征信息.本文的主要贡献如下.
(1) 本文经过研究发现, 对情感分类任务中特有的语言知识和情感资源进行建模可以增强分类效果.本文通过在序列BiLSTM模型上建立多个特征通道向量输入来解决这个问题;
(2) 提出了一种自注意力机制.将多特征向量和BiLSTM模型的隐藏输出层相结合, 为不同词赋予不同的情感权重.能够有效地提高了情感极性词的重要程度, 充分挖掘文本中的情感信息;
(3) 同时, 在本文提出的MFSA-BiLSTM模型基础上, 本文提出了用于文档级文本分类任务的MFSA- BiLSTM-D模型;
(4) 在句级和文档级据集上验证了本文提出MFSA-BiLSTM模型和MFSA-BiLSTM-D模型在情感分析任务中的有效性.
在情感分析任务中, 语义知识和情感资源, 例如情感词汇、否定词语(不、从不)、程度词(非常、绝对地)等等, 能够在很大程度上提高分类效果.因此, 很多研究者尝试从语言知识和情感资源中设计出更好的特征来提高情感分析的分类性能.Tang等人[
但是众所周知, 标准RNN会在其梯度下产生爆炸和消失状态.长短期记忆网络(LSTM)[
与文献[
目前, 注意力机制已经成为一种选择重要信息以获取优异结果的有效方法.注意力机制最早是在计算机视觉领域提出来的, 目的是模仿人类的注意力机制, 给图像不同的局部赋予不同的权重.
Bahdanau等人[
与文献[
本文提出的模型总体架构如
MFSA-BiLSTM的体系结构
Architecture of the MFSA-BiLSTM
如
Input: 使用后文公式(1)~公式(3), 将词向量
Output: 返回
1: 使用后文公式(5)和公式(6), 从多通道特征序列中获取前向后向上下文特征;
2: 使用后文公式(7)~公式(9)计算BiLSTM隐层中神经元的求和输入的均差和方差, 得到隐层的输出
3: 使用后文公式(11)~公式(13)来计算每个通道的词自注意力权重矩阵
4: 使用后文公式(14), 对每个通道BiLSTM的隐层输出
5: 将3个通道的注意力特征向量进行融合得到
6: 最后使用后文损失函数公式(17)、Adadelta方法来更新模型参数.
本文中的多通道特征由整个数据集中的词向量
● 词性特征向量.利用HowNet情感集合, 对输入的句子中词语重新标注词性.通过词性标注, 让模型去学习对情感分类有重要影响的词语.其中, 重点对特殊的情感词进行标注: 程度副词(如非常、极其)、正面/负面评价词(如好、不好)、正面/负面情感词(喜欢、失望)和否定词(如不、从不).与词向量
● 位置值向量.在句子中, 词与词之间的位置往往隐藏着重要信息, 同一个词语出现在不同的位置, 可能表达着不同的情感信息.将每个位置值映射成一个多维的连续值向量
● 依存句法向量.依存句法分析是通过分析语言单位内成分之间的依存关系揭示其句法结构.通过对输入的句子进行句法分析, 确定句子的句法结构和句子中词汇之间的依存关系, 可以让模型在更大程度上学习情感分析任务中现有的语言知识, 挖掘更多的隐藏情感信息.将每个句法特征映射成一个多维连续值向量
接着, 本文以词向量为基础, 与词性特征向量, 位置值向量和依存句法向量进行两两结合, 形成3个通道作为网络模型的输入.让模型从不同角度去学习句子中不同方面的情感特征信息, 挖掘句子中不同角度的隐藏信息.在实验中, 本文使用一种简单行向量方向拼接操作:
长短期记忆网络(LSTM)[
双向LSTM[
双向LSTM网络结构
Bidirectional LSTM network structure
双向LSTM是使用两个LSTM沿着序列的两个方向(前向和后向)扫描, 并将两个LSTM的隐藏状态串联起来表示每个位置, 前向和后向的LSTM分别表示为
其中,
接下来, 本文使用文献[
其中,
注意力机制最早是在图像处理领域提出来的, 目的是为了在模型训练时, 重点关注某些特征信息.常规的注意力机制做法是利用LSTM最后一个隐藏层的状态, 或者是利用LSTM前一刻输出的隐层状态与当前输入的隐藏状态进行对齐.采用直接对当前输入自适应加权的自注意力, 更合适用于情感分析任务中.
如
MR数据样本关键词分析
Analysis of key words in MR data samples
MR数据样本 | 关键词 |
An |
ambitious, serious, virtually, wrong, penance |
Because of an |
unnecessary, clumsy, very, bad |
The emotion is |
impressively, true, hot-blooded |
The screenplay |
sabotages, almost, stereotypes, numbingly, predictable |
Self-Attention structure of
在上述公式中,
与计算
其中,
其中,
在情感分类任务中, 句子级文本的平均长度不超过100(
情感分类的数据集
Datasets for sentiment classification
数据集 | ||||||
MR | 2 | 20 | - | 10 062 | 18 765 | 1 066 |
SST-5 | 5 | 18 | - | 11 855 | 17 836 | 2 210 |
SST-2 | 2 | 19 | - | 9 613 | 16 185 | 1 821 |
YELP3 | 5 | 189 | 11 | 71 193 | 48 957 | 8 671 |
IMDB | 10 | 395 | 16 | 76 538 | 105 373 | 9 112 |
5个数据集的最佳超参数配置
Optimal hyper-parameter configuration for five datasets
参数 | MR | SST-5 | SST-2 | YELP3 | IMDB | |||
Learning rate | 0.1 | 0.1 | 0.1 | 0.1 | 0.01 | 0.1 | 0.01 | |
Hidden layer units | 128 | 128 | 128 | 128 | 100 | 128 | 100 | |
Weight Decay | 1e-3 | 1e-4 | 1e-5 | 1e-4 | 1e-3 | 1e-4 | 1e-3 | |
Batch Size | 16 | 64 | 64 | 25 | 32 | 28 | 128 |
句子级情感分类准确性的实验结果
Experimental results of sentence-level sentiment classification accuracy
模型 | MR | SST-5 | SST-2 | ||
+ phrase | + phrase | ||||
注: 其中, 实验结果通过分类准确度进行评估.省略%, “-”表示没有相关文献, 该方法不使用该数据集.最佳结果以粗体显示 | |||||
SVM | - | - | 40.7 | 79.4 | |
Paragraph-Vec | - | - | 48.7 | 87.8 | |
CNN | 81.5 | 46.9 | 48.0 | 87.2 | |
RNN | 77.7 | 43.2 | 44.8 | 82.4 | |
RNTN | 75.9 | 43.4 | 45.7 | 85.4 | |
LSTM | 78.3 | 45.6 | 46.4 | 84.9 | |
BiLSTM | 79.8 | 46.5 | 49.1 | 87.5 | |
Tree-LSTM | 80.7 | 48.1 | 51.0 | 88.0 | |
NCSL | 82.9 | 47.1 | 51.1 | - | |
LR-Bi-LSTM | 82.1 | 48.6 | 50.6 | 88.7 | |
RNN-capsule | 83.8 | 49.3 | - | 89.1 | |
Capsule-B | 82.1 | 48.6 | - | 88.7 | |
AC-BiLSTM | 83.2 | 48.9 | - | 88.3 | |
CL+CNN | - | 51.2 | 89.5 | ||
83.3 |
针对这一问题, Le等人[
在本文中, 若直接用MFSA-BiLSTM模型对文档级文本分类, 会因为无法准确地获取文档中情感特征而导致分类效果不好(见后文
文档级情感分类准确性的实验结果
Experimental results of document-level sentiment classification accuracy
模型 | YELP3 | IMDB |
注: 其中, 实验结果通过分类准确度进行评估.省略%, “-”表示没有相关文献, 该方法不使用该数据集.最佳结果以粗体显示 | ||
AvgWordvec+SVM | 52.6 | 30.4 |
SSWE+SVM | 54.9 | 31.2 |
Paragraph-Vec | 55.4 | 34.1 |
RNTN+RNN | 57.4 | 40.1 |
UPNN(CNN and no UP) | 57.7 | 40.5 |
UPNN(CNN) | 59.6 | 43.5 |
LSTM | 53.9 | 37.8 |
BiLSTM | 58.4 | 43.3 |
CIFG-LSTM | 57.3 | 39.1 |
CIFG-BLSTM | 59.2 | 44.5 |
CLSTM | 59.4 | 42.1 |
B-CLSTM | 59.8 | 46.2 |
NSC | 62.7 | 44.3 |
NSC+LA | 63.1 | 48.7 |
59.5 | 45.6 | |
MFSA-LSTM-D | 62.4 | 45.7 |
MFSA-BiLSTM-D的体系结构
Architecture of MFSA-BILSTM-D
其中,
最后, 使用
在本节中, 本文在5个真实数据集下进行实验, 展示了实验细节, 评估了模型的性能并分析了结果.
(1) MR: MR是一个二分类的电影评论数据集, 包括10 662个样本, 分别为5 331个正面和5 331个负面;
(2) SST-5:SST-5是一个五分类数据集, 是由斯坦福解析器在11 855个句子的解析树中解析的227 376个短语级细粒情感分类.本文在SST-5数据集上分别对句子级和基于短语级注释的句子级上进行训练, 使用句子级中的测试数据进行测试;
(3) SST-2:在SST-5的数据集上进行整理(删除中性评论, 非常积极和积极的评论被标记为积极, 消极和非常负面的评论被标记为消极), 得到二分类数据集SST-2.本文在使用了短语级注释的SST-2数据集上进行训练, 使用句子级中的测试数据进行测试;
(4) YELP3:来自2013年Yelp数据集挑战的评论数据集.每个评论的情绪极性是1星~5星;
(5) IMDB: IMDB是一个电影评论数据集, 包括84 919个电影评论, 范围从1~10.
其中, MR, SST-5和SST-2是句子级数据集(
本文使用Stanford CoreNLP工具对
将本文提出的两个模型分别与基准方法进行了比较, 以验证本文提出的方法的有效性.基准方法可以分为3组, 如下所示.
1. 一般基本模型
● SVM[
● CNN[
● RNN[
● RNTN[
● LSTM/BiLSTM: 长短期记忆网络和双向长短期记忆网络;
● SSWE+SVM[
● Paragraph-Vec[
2.句子级网络模型
● Tree-LSTM[
● NCSL[
● LR-Bi-LSTM[
● RNN-capsule[
● Capsule-B[
● AC-BiLSTM[
● CL+CNN[
3. 文档级网络模型
● RNTN+RNN: 用RNTN表示每个句子, 并将句子表示输入RNN; 然后对RNN的隐藏向量进行平均, 得到用于情绪分类的文档表示;
● UPNN(CNN)[
● CIFG-LSTM/CIFG-BLSTM[
● CLSTM[
● NSC[
对比
对比
从
MFSA-BiLSTM包括两个部分, 即自注意力机制和多通道语言特征.对于MFSA-BiLSTM, 应该证明所有成分均可用于最终结果.在本节中, 我们将进行一组实验来评估自注意力和多通道语言特征分别对MFSA- BiLSTM和MFSA-BiLSTM-D两个模型性能的影响.由于MFSA-BiLSTM不依赖于解析树, 在使用了短语级注释过的和没有使用短语级注释过的SST-5上的分类效果相差不大.因此, 为了统一分析, 在后面所有实验中, 对于SST-5数据集, 本文只使用了短语注释过的SST-5数据集.
(1) 自注意力的影响
本文提出的词自注意力权重是由初始注意矩阵
不同自注意权重下MFSA-BiLSTM的精度
Accuracy for MFSA-BiLSTM with different self-attention weights
MR | SST-5 | SST-2 | |
MF-BiLSTM | 81.9 | 49.5 | 88.0 |
MFSA-BiLSTM(no |
82.3 | 50.8 | 88.4 |
MFSA-BiLSTM(no |
82.5 | 51.3 | 88.9 |
MFSA-BiLSTM(no |
83.0 | 51.5 | 89.2 |
MFSA-LSTM(all) | 82.2 | 51.1 | 88.6 |
MFSA-BiLSTM(our model) |
不同自注意权重下MFSA-BiLSTM-D的精度
Accuracy for MFSA-BiLSTM-D with different self-attention weights
YELP3 | IMDB | |
MF-BiLSTM-D | 59.6 | 45.4 |
MFSA-BiLSTM-D(no |
63.0 | 47.6 |
MFSA-BiLSTM-D(no |
62.8 | 46.9 |
MFSA-BiLSTM-D(no |
63.2 | 48.1 |
MFSA-BiLSTM-D(no |
63.6 | 48.8 |
MFSA-BiLSTM-D(our model) |
从
(2) 不同语言特征的影响
本文提出的多通道语言特征包括
从
语言特征下MFSA-BiLSTM的准确性
Accuracy for MFSA-BiLSTM with different linguistic feature
特征通道 | MR | SST-5 | SST-2 | |||
SA-BiLSTM | √ | × | × | 79.1 | 49.7 | 87.8 |
× | √ | × | 80.9 | 50.2 | 88.3 | |
× | × | √ | 82.1 | 50.8 | 88.7 | |
√ | √ | × | 81.9 | 50.5 | 88.5 | |
√ | × | √ | 83.0 | 51.0 | 88.8 | |
× | √ | √ | 82.9 | 51.4 | 89.4 | |
√ | √ | √ |
不同语言特征下MFSA-BiLSTM-D的准确性
Accuracy for MFSA-BiLSTM-D with different linguistic feature
特征通道 | YELP3 | IMDB | |||||
SA-BiLSTM-D | √ | × | × | 59.4 | 45.8 | ||
× | √ | × | 60.3 | 46.3 | |||
× | × | √ | 61.7 | 47.7 | |||
√ | √ | × | 62.9 | 47.4 | |||
√ | × | √ | 63.1 | 47.9 | |||
× | √ | √ | 63.5 | 48.4 | |||
√ | √ | √ |
从语言特征调节实验中, 得出了在词向量的基础上, 词性特征与句法特征在分类效果上起着关键性作用.因此, 在这一小节对词性特征、句法特征以及词向量进行了进一步分析.
在
词性特征在不同维度上的影响
Influence of parts-of-speech features in different dimensions
句法特征在不同维度上的影响
Influence of dependency parsing features in different dimensions
在
不同的词嵌入和向量大小的影响
Influence of different word embedding and vector size
在序列模型中, 会将输入文本序列解码为某一个特定的长度向量, 若向量的长度设定过短, 可能会造成文本信息的丢失, 导致文本理解出现偏差.针对这一问题.本小节在电影评论数据集(MR)进行了文本长度调节实验.
在实验中, 根据电影评论数据集(MR)可视化(如
电影评论数据集(MR)可视化(左)和不同文本长度下的精度(右)
Movie Review(MR) dataset visualization (left) and accuracy of different text lengths (right)
因此, 经实验分析可以看出: 本文提出的MFSA-BiLSTM模型, 在文本长度调节过程中的分类效果相差并不是很大.原因是MFSA-BiLSTM模型中的自注意力是由自辅助矩阵、初始注意矩阵和额外辅助矩阵这3部分组成, 其中, 初始注意矩阵能够在一定程度考虑到文本长度.但是, 当文本长度超过一定阈值时, 由于数据稀疏问题, MFSA-BiLSTM模型的分类性能会受到影响.
为了进一步分析本文提出的模型相对于BiLSTM(无自注意力, 无多通道特征), MF-BiLSTM(无自注意力机制, 有多通道特征), WFCNN(使用了情感序列特征的CNN)以及LR-Bi-LSTM(使用了语言特征的LSTM)等模型的优势, 本文使用经过训练的MFSA-BiLSTM, BiLSTM, MF-BiLSTM, WFCNN和LR-Bi-LSTM预测几个具体的样例来进行分析.由于MFSA-BiLSTM-D是在MFSA-BiLSTM上提出的, 因此, 在本节, 本文只对MFSA-BiLSTM进行分析.
如
典型样例分析
Analysis of typical sample cases
ID | 样例 | 目标 | 模型 | 判断结果 |
1 | The last case (a different brand) we ordered from Amazon was so terrible we threw away the entire case. However, the Boscoli brand is good and we can enjoy a good dirty martini. | 1 | MFSA-BiLSTM | √ |
LR-Bi-LSTM | × | |||
MF-BiLSTM | √ | |||
BiLSTM | × | |||
WFCNN | × | |||
2 | All of the elements are in place for a great film noir, but director george hickenlooper's approach to the material is too upbeat. | 0 | MFSA-BiLSTM | √ |
LR-Bi-LSTM | × | |||
MF-BiLSTM | × | |||
BiLSTM | × | |||
WFCNN | × | |||
3 | After discovering the use of Samsung mobile phones, my Weibo is full of typos! Can't stand it! Be careful! Be careful! | 0 | MFSA-BiLSTM | √ |
LR-Bi-LSTM | √ | |||
MF-BiLSTM | √ | |||
BiLSTM | × | |||
WFCNN | × |
对于样例3, 情感词不是单独起作用的, 而是通过词序列结合句子的上下语义表达出整个句子的情感.由于WFCNN提取的特征是局部相邻词之间的特征, 因此出现误分类.BiLSTM虽然具有强大的上下文语义捕捉能力, 但是样例3具有大量的正负面情感词, 由于对特殊的情感词并没有进行处理, 从而出现了误分类.而MFSA- BiLSTM, LR-Bi-LSTM和MF-BiLSTM这3个模型充分利用了语言知识, 不仅有强大的上下文语义捕捉能力, 并能根据上下语义对文本中的情感词进行程度加强, 因此能够正确分类.对于样例1和样例2, 这种带有“however” “but”转折词的文本, LR-Bi-LSTM并没有分类成功.原因是LR-Bi-LSTM模型的调节器具有局限性, 它没有考虑句子的依赖关系, 而直接对整个文本的情感词进行强度调节.MF-BiLSTM, 能够根据句子结构、词的位置和词性特征对一些带有转折词的文本进行正确的分类(样例1), 但当遇到分类情感特征不明显且带转折的文本时, 会分类错误(样例2).而本文提出的MFSA-BiLSTM在MF-BiLSTM模型上增加了自注意力, 通过自注意加权, 加强文本中的情感, 使情感特征信息特征更加突出.因此, 本文提出的MFSA-BiLSTM模型可以分类成功.
本文在
3个通道特征自注意可视化
Three channel features self-attention visualization
如
为了更好地理解本文提出模型的局限性, 本文对MFSA-BiLSTM模型所产生的误差进行了分析.具体来说, 本文从MR电影评论数据集的测试集中随机选择了50个被MFSA-BiLSTM错误预测的实例, 揭示了分类错误的几个原因.可以将其分为以下两种.
● 第1种, MFSA-BiLSTM无法对存在多个目标词的文本进行正确的预测.例如对于一个句子“intriguing and beautiful film, but those of you who read the book are likely to be disappointed.”, 会因为无法确定目标词是“film”还是“book”, 本文提出的模型会直接根据句子的结构、位置以及词性, 以“but”后面的“book”为目标词进行预测, 从而出现误判;
● 第2种, 当文本长短相差过大, 会造成多通道特征稀疏, 影响自注意力权重的分布, 从而影响分类效果.
本文提出了一个具有自注意力机制和多通道特征的双向LSTM模型(MFSA-BiLSTM).该模型由自注意力机制和多通道特征两部分组成.先对情感分析任务中现有的语言知识和情感资源进行建模, 生成不同的特征通道作为模型的输入, 再利用BiLSTM来充分的获得这些有效的情感资源信息.最后使用自注意力机制对这些重要信息进行重点关注加强, 提高分类精度.此外, 本文在MFSA-BiLSTM模型上, 针对文档级文本分类任务提出了MFSA-BiLSTM-D模型.该模型将文本中的句子进行分割, 再分别使用MFSA-BiLSTM模型进行特征学习得到句子特征信息.在5个基准数据集上进行了实验, 用来评估本文提出的方法的性能.实验结果表明: 在大多数情况下, MFSA-BILSTM和MFSA-BILSTM-D模型比一些最先进的基线方法分类更好.
未来的工作重点是注意力机制的研究和文档级文本特定目标分类任务的网络模型体系结构的设计.未来的工作主要包括以下几个部分: (1) 利用其他注意机制进一步完善本文提出的方法; (2) 针对文档级文本特定目标分类任务, 设计了一种新的注意机制和网络模型; (3) 将本文的方法应用到实际应用中.
Socher R, Pennington J, Huang EH, Ng AY, Manning CD. Semi-supervised recursive autoencoders for predicting sentiment distributions. In: Proc. of the 2011 Conf. on Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2011. 151-161.
Socher R, Perelygin A, Wu J, Chuang J, Manning CD, Ng A, Potts C. Recursive deep models for semantic compositionality over a sentiment treebank. In: Proc. of the 2013 Conf. on Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2013. 1631-1642.
doi: 10.3115/v1/D14-1181]]]>
doi: 10.3115/v1/P14-1062]]]>
doi: 10.18653/v1/D15-1180]]]>
Zhu X, Sobihani P, Guo H. Long short-term memory over recursive structures. In: Proc. of Int'l Conf. on Machine Learning. 2015. 1604-1612.
doi: 10.3115/v1/P15-1150]]]>
http://jcip.cipsc.org.cn/CN/Y2015/V29/I6/172[doi: CNKI:SUN:MESS.0.2015-06-024]]]>
http://jcip.cipsc.org.cn/CN/Y2015/V29/I6/172[doi: CNKI:SUN:MESS.0.2015-06-024]]]>
doi: 10.18653/v1/P17-1154]]]>
doi: CNKI:SUN:JSJK.0.2019-02-023]]]>
doi: CNKI:SUN:JSJK.0.2019-02-023]]]>
Liu G, Guo J. Bidirectional LSTM with attention mechanism and convolutional layer for text classification. Neurocomputing, 2019, 337: 325-338. [doi:10.1016/j.neucom.2019.01.078]
doi: 10.3115/v1/P14-1146]]]>
Huang FL, Feng S, Wang D, Yu G. Mining topic sentiment in microblogging based on multi-feature fusion. Chinese Journal of Computers, 2017, 40(4): 872-888(in Chinese with English abstract). [doi:10.11897/SP.J.1016.2017.00872]
黄发良, 冯时, 王大玲, 于戈. 基于多特征融合的微博主题情感挖掘. 计算机学报, 2017, 40(4): 872-888. [doi:10.11897/SP.J.1016. 2017.00872]
Huang FL, Yu G, Zhang JL, Li CX, Yuan CA, Lu JL. Mining topic sentiment in micro-blogging based on micro-blogger social relation. Ruan Jian Xue Bao/Journal of Software, 2017, 28(3): 694-707(in Chinese with English abstract). http://www.jos.org.cn/1000-9825/5157.htm[doi:10.13328/j.cnki.jos.005157]
黄发良, 于戈, 张继连, 李超雄, 元昌安, 卢景丽. 基于社交关系的微博主题情感挖掘. 软件学报, 2017, 28(3): 694-707. http://www.jos.org.cn/1000-9825/5157.htm[doi:10.13328/j.cnki.jos.005157]
doi: 10.18653/v1/P16-2036]]]>
doi: 10.3115/v1/P14-2063]]]>
doi: 10.18653/v1/D16-1169]]]>
doi: 10.3115/v1/P15-1150]]]>
Zhang B, Xu X, Li X, Chen X, Ye Y, Wang Z. Sentiment analysis through critic learning for optimizing convolutional neural networks with rules. Neurocomputing, 2019, 356: 21-30. [doi:10.1016/j.neucom.2019.04.038]
Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv: 1409. 0473, 2014.
Ma D, Li S, Zhang X, Wang H. Interactive attention networks for aspect-level sentiment classification. In: Proc. of the 26th Int'l Joint Conf. on Artificial Intelligence. AAAI, 2017. 4068-4074.
doi: 10.18653/v1/D16-1058]]]>
doi: 10.1145/3178876.3186001]]]>
Liang B, Liu Q, Xu J, Zhou Q, Zhang P. Aspect-based sentiment analysis based on multi-attention CNN. Journal of Computer Research and Development, 2017, 54(8): 1724-1735(in Chinese with English abstract). [doi:10.7544/issn1000-1239.2017.20170178]
梁斌, 刘全, 徐进, 周倩, 章鹏. 基于多注意力卷积神经网络的特定目标情感分析. 计算机研究与发展, 2017, 54(8): 1724-1735. [doi:10.7544/issn1000-1239.2017.20170178]
http://jcip.cipsc.org.cn/CN/Y2019/V33/I2/105[doi: CNKI:SUN:MESS.0.2019-02-017]]]>
http://jcip.cipsc.org.cn/CN/Y2019/V33/I2/105[doi: CNKI:SUN:MESS.0.2019-02-017]]]>
doi: 10.18653/v1/D16-1024]]]>
Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, Kaiser A, Polosukhin I. Attention is all you need. In: Proc. of the Advances in Neural Information Processing Systems. 2017. 5998-6008.
Lin Z, Feng M, Santos CND, Yu M, Xiang B, Zhou B, Bengio Y. A structured self-attentive sentence embedding. arXiv preprint arXiv: 1703.03130, 2017.
doi: 10.1145/3178876.3186015]]]>
Schuster M, Paliwal KK. Bidirectional recurrent neural networks. IEEE Trans. on Signal Processing, 1997, 45(11): 2673-2681.
Ba JL, Kiros JR, Hinton GE. Layer normalization. arXiv preprint arXiv: 1607.06450, 2016.
Le Q, Mikolov T. Distributed representations of sentences and documents. In: Proc. of the Int'l Conf. on Machine Learning. JMLR: Workshop&CP, 2014. 1188-1196.
doi: 10.3115/v1/P15-1098]]]>
doi: 10.18653/v1/D16-1172]]]>
doi:10.18653/v1/D16-1171]]]>
doi: 10.3115/v1/D14-1162]]]>
Liu Y, Bi JW, Fan ZP. A method for multi-class sentiment classification based on an improved one-vs-one (OVO) strategy and the support vector machine (SVM) algorithm. Information Sciences, 2017, 394: 38-52. [doi:10.1016/j.ins.2017.02.016]
doi: 10.18653/v1/D18-1350]]]>
Greff K, Srivastava RK, Koutník J, Steunebrink BR, Schmidhuber J. LSTM: A search space odyssey. IEEE Trans. on Neural Networks and Learning Systems, 2017, 28(10): 2222-2232. [doi:10.1109/TNNLS.2016.2582924]