10.16208/j.issn1000-7024.2022.04.025
基于自注意力的多模态LSTM的动作预测
针对视频动作预测领域的算法在不同预测时间预测效果不稳定的缺陷,提出一种基于自注意力机制的多模态LSTM的动作预测模型.综合考虑3种视频特征,采用位置编码及自注意力机制编码3种模态特征,得到具有丰富语义的高层特征;使用LSTM结构总结视频的历史信息,产生不同预测时间的动作预测结果;完成多模态特征的子网络的训练后,采取多模型融合策略将子网络的预测输出进行融合.实验结果表明,在EPIC-Kitchens数据集上的预测精度稳定在38%,在EGTEA Gaze+数据集上的预测精度稳定在77%.
动作预测、多模态特征、位置编码、自注意力机制、多模型融合
43
TP391(计算技术、计算机技术)
国家自然科学基金61802250
2022-04-28(万方平台首次上网日期,不代表论文的发表时间)
共6页
1083-1088