基于视觉方面注意力的图像文本情感分析模型
社交网络已经成为人们日常生活中不可分割的一部分,对社交媒体信息进行情感分析有助于了解人们在社交网站上的观点、态度和情绪.传统情感分析主要依赖文本内容,随着智能手机的兴起,网络上的信息逐渐多样化,除了文本内容,还包括图像.通过研究发现,在多数情况下,图像对文本有着支持增强作用,而不独立于文本来表达情感.文中提出了一种新颖的图像文本情感分析模型(LSTM-VistaNet),具体来说,LSTM-VistaNet模型未将图像信息作为直接输入,而是利用VGG16网络提取图像特征,进一步生成视觉方面注意力,赋予文档中核心句子更高的权重,得到基于视觉方面注意力的文档表示;此外,还使用LSTM模型对文本情感进行提取,得到基于文本的文档表示.最后,将两组分类结果进行融合,以获得最终的分类标签.在Yelp餐馆评论的数据集上,所提模型在精确度上达到了62.08%,比精度较高的模型BiGRU-mVGG提高了18.92%,验证了将视觉信息作为方面注意力辅助文本进行情感分类的有效性;比VistaNet模型提高了0.32%,验证了使用LSTM模型可以有效弥补VistaNet模型中图像无法完全覆盖文本的缺陷.
视觉方面注意力;LSTM;多模态;情感分析;社交图像
49
TP391.1(计算技术、计算机技术)
国家社会科学基金15BGL048
2022-01-21(万方平台首次上网日期,不代表论文的发表时间)
共6页
219-224