融合图像与声音信息的视频标注
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

融合图像与声音信息的视频标注

引用
随着互联网的兴盛和信息技术的飞速发展,大众媒体开始从以文字和图像为主的形式逐渐向以视频为主的形态演变,大量视频数据不断涌出.因此,能够高效、及时地进行视频分类和管理的视频标注成为时下一大热门.视频标注本质是序列到序列的转换[1],特点在于视频的内容信息并不能用割裂的一帧帧的图像数据来表征,而需要强调视频前后的连续性和关联性.此外,对于普通观众而言,视频中附加的声音信息同样是接收和理解视频内容的关键要素.然而,现有的用于视频标注的神经网络大多没有利用声音信息来进行标注输出.对此,该文提出一种基于S2VT模型的、融合声音和图像信息的神经网络,运用循环神经网络算法以及编码解码结构,对输入的视频进行时序性学习,并最终输出一段有意义、便于理解的文字.在数据预处理方面,该文选择从图像信息中提取3D特征[2],使用业内流行的MFCC算法将输入的声音部分转化为声音特征,最后将保存这两个特征的矩阵有序拼接输入神经网络中.该文针对最终模型输出效果进行了对比实验,发现在训练条件一致的情况下,添加了声音特征的模型在处理含有声音信息的视频时,能够取得比不添加声音特征时更好、更自然的语句输出.

视频标注、MFCC算法、声音特征、3D特征

16

TP37(计算技术、计算机技术)

东南大学大学生创新创业训练项目——融合图像、声音和手语信息的视频标注项目编号:201910286190X

2020-12-21(万方平台首次上网日期,不代表论文的发表时间)

共3页

195-197

相关文献
评论
暂无封面信息
查看本期封面目录

电脑知识与技术

1009-3044

34-1205/TP

16

2020,16(33)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn