情感树库上语义组合的递归深层模型

百家 作者:大数据文摘 2021-08-30 19:55:02

大数据文摘授权转载自数据派THU

作者:Talha Chafekar

翻译:顾伟嵩、阿笛


本文探讨了单词和n-grams的不同组合方法,以及如何借助基于树的表示法,以自底向上的方式预测短语或单词的二元或多类(本例中为5)细粒度情感。


作者提出了一个用于句子/短语表示的数据集“斯坦福树库(Stanford Treebank)”,以及一个用于预测细粒度情感标签的模型“递归张量神经网络(Recursive Tensor Neural Network)”。

 

数据集


作者介绍了一个数据集“斯坦福树库”,它由11855个句子组成,每个句子都用“斯坦福语法分析器(Stanford Parser)”进行了解析,生成了215154个短语,这些短语用Amazon Mechanical Turk进行标记。每个单词有五个可能的标签(负面的,较为负面的,中性的,积极的和较为积极的)。


创建该数据集的主要动机是克服词袋无法考虑词序的问题,这在考虑对困难的事例负面分类问题是有帮助的。有关数据集和可视化表示,请访问此处(注:由于下载的文献里没有,需要去原网站看一下具体文章,从而设置一下超链接)。


概念


本文的思想基于以下概念:

 

a) 基于树的表示法:


一个句子被分解成多个单词,每个单词成为树的叶子节点。这背后的主要思想是捕捉一系列单词的感情思想。例如,让我们思考一个句子:“我不喜欢雨,但我喜欢冬天”。当我们用树表示这句话时,可以看到单词“dislike”的父元素得到一个负面的标签,但是,当我们推进到整个句子时,感情色彩因为单词“love”变得积极了。因此,由于这种表示法保留了词序,我们可以做出更准确的预测。


句子的基于树的表示法以及每个节点的情感 

 

b)组合函数:


组合性简单来说,就是把单词的意思放在一起考虑,或者说,一组词作为一个整体的语义是单词本身的语义的函数。本文运用这个思想,计算短语的向量表示,然后将其用作情感分类的特征。从直觉上讲,这是有道理的,因为单词放在一起考虑时的意思可能是不同的,单词单独考虑时的意思也可能是不同的。


以递归的方式计算双亲节点的组合函数

 

c)模型的递归性质:


用于该任务的模型是以递归的方式进行应用的。首先,用向量表示叶子节点。然后,这些向量以自下而上的方式被传递给它们的父节点的组合函数,并且被用作每个节点的分类任务的特征。因此,以这种方式,为父节点创建向量。这些已经被计算的向量是训练过程中更新的参数。最终,这些特征被提供给softmax分类器,以获得每个标签的概率。


模型


作者为该任务提出了“递归张量神经网络”模型。这个模型的主要动机来自于该领域的两项前期工作:

 

a) 递归神经网络(RNN):


由于数据的计算顺序本质上的递归的(父向量取决于它们的子向量),因此,RNN是用于此目的的合适模型。引入一个可学习的参数来找出每个子向量的父向量,并将tanh用作元素级非线性。

 

b)矩阵向量递归神经网络(MV-RNN):


这种形式的迭代神经中,每个单词用两个实体表示:a) 矩阵;b) 向量。

当计算父节点时时,用一个子节点的矩阵乘以另一个子节点的向量,反之亦然。

 

c)递归神经张量网络(RNTN):


RNTN的主要动机是针对RNN和MV-RNN的缺点。在RNN中,输入向量和输出向量的关系是通过一个学习参数和运用tanh计算的。然而,乘法方法可以实现更好的交互。在MV-RNN中,由于我们用一个矩阵作为单词/长短语的表示,参数的数量变得非常大,并且取决于词汇量的大小。


因此,作者讨论了单个组合函数的使用,与上述缺点相比,它的性能更好。由于RNTN中的张量是多维的,它可以捕捉不同类型的组合。而且,如果张量设置为0,输出可以与输入直接相关。RNTN的一个缺点是,如果添加了任何额外的层,那么很难进一步优化模型。RNTN模型能够从结构上学习积极和消极的规则。

 

结论


因此,RNTN和情感树库允许在一系列单词上捕获细粒度情感。此外,与MV-RNN和biNB相比,它能很好地完成对比结合任务。

 

引用



哇!!结束了,期待这是一次好的阅读体验!


原文标题:

A Review on ‘Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank’

原文链接:

https://talhachafekar.medium.com/a-review-on-recursive-deep-models-for-semantic-compositionality-over-a-sentiment-treebank-9c93a2cf4bed



点「在看」的人都变好看了哦!

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接