面向视觉数据处理与分析的解耦表示学习综述

引用

摘要：

表示学习是机器学习研究的核心问题之一.机器学习算法的输入表征从过去主流的手工特征过渡到现在面向多媒体数据的潜在表示,使算法性能获得了巨大提升.然而,视觉数据的表示通常是高度耦合的,即输入数据的所有信息成分被编码进同一个特征空间,从而互相影响且难以区分,使得表示的可解释性不高.解耦表示学习旨在学习一种低维的可解释性抽象表示,可以识别并分离出隐藏在高维观测数据中的不同潜在变化因素.通过解耦表示学习,可以捕获到单个变化因素信息并通过相对应的潜在子空间进行控制,因此解耦表示更具有可解释性.解耦表征可用于提高样本效率和对无关干扰因素的容忍度,为数据中的复杂变化提供一种鲁棒性表示,提取的语义信息对识别分类、域适应等人工智能下游任务具有重要意义.本文首先介绍并分析解耦表示的研究现状及其因果机制,总结解耦表示的3个重要性质.然后,将解耦表示学习算法分为4类,并从数学描述、类型特点及适用范围3个方面进行归纳及对比.随后,分类总结了现有解耦表示工作中常用的损失函数、数据集及客观评估指标.最后,总结了解耦表示学习在实际问题中的各类应用,并对其未来发展进行了探讨.

关键词：解耦表示学习、视觉数据、潜在表征、变化因素、潜空间

所属期刊栏目：28

分类号：TP37(计算技术、计算机技术)

资助基金：湖北省自然科学基金;湖北省重点研发计划项目

在线出版日期：2023-04-23（万方平台首次上网日期，不代表论文的发表时间）

页数：共32页

页码：903-934

英文信息展示

期刊专题