基于深度学习的鲁棒性视觉跟踪方法

引用

摘要：

传统的视觉跟踪方法（如 L1等）大多直接使用视频序列各帧内的像素级特征进行建模，而没有考虑到各图像块内部的深层视觉特征信息．在现实世界的固定摄像头视频监控场景中，通常可以找到一块区域，该区域中目标物体具有清晰、易于分辨的表观．因此，文中在各视频场景内事先选定一块可以清晰分辨目标表观的参考区域用以构造训练样本，并构建了一个两路对称且权值共享的深度卷积神经网络．该深度网络使得参考区域外目标的输出特征尽可能与参考区域内目标的输出特征相似，以获得参考区域内目标良好表征的特性．经过训练后的深度卷积神经网络模型具有增强目标可识别性的特点，可以应用在使用浅层特征的跟踪系统（如 L1等）中以提高其鲁棒性．文中在 L1跟踪系统的框架下使用训练好的深度网络提取目标候选的特征进行稀疏表示，从而获得了跟踪过程中应对遮挡、光照变化等问题的鲁棒性．文中在25个行人视频中与当前国际上流行的9种方法对比，结果显示文中提出的方法的平均重叠率比次优的方法高0．11，平均中心位置误差比次优的方法低1．0．

关键词：深度学习、卷积神经网络、视觉跟踪、鲁棒性、L1 跟踪系统、计算机视觉

所属期刊栏目：39

分类号：TP18(自动化基础理论)

资助基金：国家“九七三”重点基础研究发展规划项目基金2012CB316304;国家自然科学基金重点项目61432019资助．

在线出版日期：2016-08-03（万方平台首次上网日期，不代表论文的发表时间）

页数：共16页

页码：1419-1434

英文信息展示

期刊专题