DOI：10.11992/tis.201603040

一种多模态融合的网络视频相关性度量方法

引用

摘要：

随着网络和多媒体技术的发展，视频分享网站中的网络视频数量呈爆炸式增长。海量视频库中的高精度视频检索、分类、标注等任务成为亟待解决的研究问题。视频间的相关性度量是这些问题所面临的一个共性基础技术。本文从视频视觉内容，视频标题和标签文本，以及视频上传时间、类别、作者3种人与视频交互产生的社会特征等多源异构信息出发，提出一种新颖的多模态融合的网络视频相关性度量方法，并将所获相关性应用到大规模视频检索任务中。 YouTube数据上的实验结果显示：相对于传统单一文本特征、单一视觉特征的检索方案，以及文本和视觉特征相融合的检索方案，文本视觉和用户社会特征多模态融合方法表现出更好的性能。

关键词：网络视频、海量视频、社会特征、交互、多源异构信息、多模态信息融合、相关性度量、视频检索

所属期刊栏目：11

分类号：TP393(计算技术、计算机技术)

资助基金：国家自然科学基金项目61473030，61303175；重点大学研究基金项目2014JBM031；重点实验室数字媒体技术开放课题

在线出版日期：2016-06-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：359-365

英文信息展示

期刊专题