DOI：10.11834/jig.220854

图像级标记弱监督目标检测综述

引用

摘要：

目标检测是计算机视觉领域的基本任务之一,根据标签信息的不同,可分为全监督目标检测、半监督目标检测和弱监督目标检测等.弱监督目标检测旨在仅利用图像级别的类别标记信息训练检测器,从而完成对测试图像中所有目标物体的定位和分类.因能够显著降低数据标记成本,弱监督目标检测愈发受到关注且已取得令人瞩目的进展.本文由弱监督目标检测的研究意义引人,首先介绍了弱监督目标检测的标签设置及问题定义、基于多示例学习的基础框架和面临的局部主导、实例歧义和计算消耗这3大难题,接着按核心网络架构将该领域的典型算法归纳为3大类,分别是基于优化候选框生成的算法、结合图像分割的算法和基于自训练的算法,并分别阐述各类算法的核心贡献.进一步地,本文通过实验在多种评估指标上对比了各类弱监督目标检测算法的检测效果.在VOC2007(visual object classes 2007)数据集中,平均精度均值(mean average precision,mAP)最高的方法为 MIST(mul-tiple instance self-training)算法(54.9％),正确定位率(correct localization,CorLoc)最高的方法为 SLV(spatial likeli-hood voting)算法(71.1％).在 VOC2012 数据集中,mAP最高的方法为 NDI-WSOD(negative deterministic information weakly supervised object detection)算法(53.9％),CorLor 最高的方法为 P-MIDN(pyramidal multiple instance detection network)算法(73.3％).在 MSCOCO(Microsoft common objects in context)数据集中,在交并比(intersection over union,IoU)阈值为 50％时验证集上的平均精度 ValAP50最高的方法为P-MIDN(pyramidal multiple instance detection network)(27.4％).最后探讨了弱监督目标检测未来的研究方向.本文所总结的弱监督目标检测算法框架,对后续研究人员的网络设计、模型探究和优化方向等都具有一定的参考价值.

关键词：弱监督目标检测、弱监督语义分割、候选框生成器、自训练

所属期刊栏目：28

分类号：TP183(自动化基础理论)

在线出版日期：2023-10-20（万方平台首次上网日期，不代表论文的发表时间）

页数：共17页

页码：2644-2660

英文信息展示

期刊专题