一种多任务学习的跨模态视频情感分析方法

引用

摘要：

针对现有跨模态视频情感分析模型中模态融合不充分、空间复杂度较高以及较少考虑说话人本身属性对情感影响等问题,提出了一种结合多头注意力与多任务学习的跨模态视频情感分析模型.对视频进行预处理,得到视频、音频、文本三个模态的特征表示.将得到的特征表示分别输入到GRU网络以提取时序特征.利用所提出的最大池化多头注意力机制,实现文本与视频、文本与音频的两两融合.将融合后的特征输入到情感分类与性别分类多任务网络得到说话人的情感极性与性别属性.实验结果表明,所提模型能够较好地利用模态间的差异信息与说话人性别属性,在有效提升情感识别准确率的同时降低了模型的空间复杂度.

关键词：视频情感分析、模态融合、多头注意力、多任务学习、模型复杂度

所属期刊栏目：59

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金;广西自然科学基金重点项目;广西高校图像图形智能处理重点实验室研究项目;广西自然科学基金项目;广西高校中青年教师科研基础能力提升项目;桂林电子科技大学研究生教育创新计划

在线出版日期：2023-06-29（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：141-147

英文信息展示

期刊专题