结合局部奖励机制的视频摘要技术研究

引用

摘要：

视频摘要技术的目的是在缩短视频长度的同时,概括视频的主要内容,这样可以极大地节省人们浏览视频的时间.视频摘要技术的一个关键步骤是评估生成摘要的性能,现有的大多数方法是基于整个视频进行评估.然而,基于整个视频序列进行评估的计算成本很高,特别是对于长视频.而且在整个视频上评估生成摘要往往忽略了视频数据固有的时序关系,导致生成摘要缺乏故事情节的逻辑性.因此,提出了一个关注局部信息的视频摘要网络,称为自注意力和局部奖励视频摘要网络(ALRSN).确切地说,该模型采用自注意力机制预测视频帧的重要性分数,然后通过重要性分数生成视频摘要.为了评估生成摘要的性能,进一步设计了一个局部奖励函数,同时考虑了视频摘要的局部多样性和局部代表性.该函数将生成摘要映射回原视频,并在局部范围内评估摘要的性能,使其具有原视频的时序结构.通过在局部范围内获得更高的奖励分数,使模型生成更多样化、更具代表性的视频摘要.综合实验表明,在两个基准数据集SumMe和TvSum上,ALRSN模型优于现有方法.

关键词：计算机视觉、视频摘要、注意力机制、局部奖励函数

所属期刊栏目：57

分类号：TP302.7(计算技术、计算机技术)

资助基金：国家自然科学基金;广州市产学研协同创新重大专项

在线出版日期：2021-06-15（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：211-218

英文信息展示

期刊专题