10.13700/j.bh.1001-5965.2020.0447
融合语义信息的视频摘要生成
视频摘要任务旨在通过生成简短的视频片段来表示原视频的主要内容,针对现有方法缺乏对语义信息探索的问题,提出了一种融合语义信息的视频摘要生成模型,学习视频特征使其包含丰富的语义信息,进而同时生成描述原始视频内容的视频摘要和文本摘要.该模型分为3个模块:帧级分数加权模块、视觉-语义嵌入模块、视频文本描述生成模块.帧级分数加权模块结合卷积网络与全连接层以获取帧级重要性分数;视觉-语义嵌入模块将视觉特征与文本特征映射到同一空间,以使2种特征相互靠近;视频文本描述生成模块最小化视频摘要的生成描述与文本标注真值之间的距离,以生成带有语义信息的视频摘要.测试时,在获取视频摘要的同时,该模型获得简短的文本摘要作为副产品,可以帮助人们更直观地理解视频内容.在SumMe和TVSum数据集上的实验表明:该模型通过融合语义信息,比现有先进方法取得了更好的性能,在这2个数据集上F-score指标分别提高了0.5%和1.6%.
视频摘要、视觉-语义嵌入空间、视频文本描述、视频关键帧、长短期记忆(LSTM)模型
47
TP391(计算技术、计算机技术)
国家自然科学基金;国家自然科学基金
2021-04-19(万方平台首次上网日期,不代表论文的发表时间)
共8页
650-657