基于深度学习的人—物交互关系检测综述

引用

摘要：

人—物交互关系检测旨在通过精细化定位图像或视频中产生特定动作行为的人,以及与其产生交互关系的物体,并识别人和物体之间的动作关系来理解和分析人体的行为.人—物交互关系检测是一个非常具有实际应用意义和前瞻性的研究方向,是高层视觉理解的关键基石.随着深度学习的发展,基于深度学习的研究方法引领了近期人—物交互关系检测研究的进步.本文一方面分析空域人—物交互关系检测任务,从数据内容场景、标注粒度两个方面总结和分析当下数据库和基准.然后从两阶段分段式方法和单阶段端到端式方法两个流派出发系统性地阐述当前检测方法的发展现状,分析两个流派方法的特性和优劣,厘清该领域方法的发展路线.其中,两阶段方法包括多流模型和图模型两种主要范式,而单阶段模型包括基于框的范式、基于关系点的范式和基于查询的范式.另一方面,对时空域人—物交互关系检测任务进行总结,分析现有时空域交互关系数据集构造与特性和现有基线算法的优劣.最后对未来的研究方向进行展望.

关键词：人—物交互关系(HOI)检测、行为理解、深度学习、目标检测、关系检测

所属期刊栏目：27

分类号：TP301.6(计算技术、计算机技术)

资助基金：国家自然科学基金;国家自然科学基金

在线出版日期：2022-09-27（万方平台首次上网日期，不代表论文的发表时间）

页数：共18页

页码：2611-2628

英文信息展示

期刊专题