一种多模态融合的网络视频相关性度量方法
随着网络和多媒体技术的发展,视频分享网站中的网络视频数量呈爆炸式增长。海量视频库中的高精度视频检索、分类、标注等任务成为亟待解决的研究问题。视频间的相关性度量是这些问题所面临的一个共性基础技术。本文从视频视觉内容,视频标题和标签文本,以及视频上传时间、类别、作者3种人与视频交互产生的社会特征等多源异构信息出发,提出一种新颖的多模态融合的网络视频相关性度量方法,并将所获相关性应用到大规模视频检索任务中。 YouTube数据上的实验结果显示:相对于传统单一文本特征、单一视觉特征的检索方案,以及文本和视觉特征相融合的检索方案,文本视觉和用户社会特征多模态融合方法表现出更好的性能。
网络视频、海量视频、社会特征、交互、多源异构信息、多模态信息融合、相关性度量、视频检索
11
TP393(计算技术、计算机技术)
国家自然科学基金项目61473030,61303175;重点大学研究基金项目2014JBM031;重点实验室数字媒体技术开放课题
2016-06-22(万方平台首次上网日期,不代表论文的发表时间)
共7页
359-365