10.3969/j.issn.1008-0945.2023.10.014
基于视觉关系与音频线索的视频场景识别模型研究
近年来,随着视频监控、智能交通、智能家居等应用的普及,视频场景识别技术受到了广泛关注.在视频场景识别领域,目前主流的方法主要包括基于运动特征和基于颜色特征两大类,其中,基于运动特征的方法主要通过对场景中的目标进行检测、跟踪和分割得到场景中的目标图像,从而实现对目标的跟踪.然而,由于场景中存在复杂的背景、遮挡等现象,导致单一的运动特征和颜色特征难以有效地提取视频场景中的关键点.因此,为了提高视频场景识别算法的准确率,本文提出一种基于视觉关系与音频线索的视频场景识别模型,并对场景中的视觉关系和音频线索进行建模.最后,将多模态信息融合思想引入到场景识别模型中,通过多层次特征提取来提高视频场景识别模型的性能,从而进一步丰富视频场景识别机制,促进视频场景识别技术的发展.
场景识别、视频场景、识别模型、音频线
312
TP391.41;TN919.8;F275
2023-07-31(万方平台首次上网日期,不代表论文的发表时间)
共4页
36-39