10.19678/j.issn.1000-3428.0065022
结合全局上下文信息的高效人体姿态估计
现有的人体姿态估计模型通常使用复杂的网络结构提升关键点检测准确率,忽视了模型参数量和复杂度,使得模型难以部署在资源受限的计算设备上.针对这一问题,构建一个感知全局上下文信息的轻量级人体姿态估计网络模型(GCEHNet).对HRNet进行轻量化改进,使用深度卷积模块代替HRNet结构中的标准3×3残差卷积模块,在保证网络性能的同时大幅度降低模型参数量与复杂度.为了克服卷积神经网络(CNN)在长期语义依赖性建模方面的局限性,使用双支路方法联合CNN与Transformer,将全局位置信息嵌入CNN后期模块,使GCEHNet模型能感知上下文特征信息,从而提升网络性能.设计一种CNN特征与全局位置特征高效融合的策略,通过学习联合特征信息重新分配特征权重,捕获并增强来自不同感受野的特征信息.实验结果表明,GCEHNet模型在MS COCO val2017和test-dev2017数据集上的检测准确率分别达到71.6%和71.3%,相比于HRNet模型,在检测准确率仅损失4.5%的条件下参数量降低了76.4%,在检测准确率和模型复杂度间取得了较好的平衡.
人机交互、人体姿态估计、自注意力机制、全局上下文信息、特征融合
49
TP183(自动化基础理论)
国家自然科学基金;国家自然科学基金
2023-07-20(万方平台首次上网日期,不代表论文的发表时间)
共9页
102-109,117