DOI：10.11834/jig.220486

视觉—语义双重解纠缠的广义零样本学习

引用

摘要：

目的传统的零样本学习(zero-shot learning,ZSL)旨在依据可见类别的数据和相关辅助信息对未见类别的数据进行预测分类,而广义零样本学习(generalized zero-shot learning,GZSL)中分类的类别既可能属于可见类也可能属于不可见类,这更符合现实的应用场景.基于生成模型的广义零样本学习的原始特征和生成特征不一定编码共享属性所指的语义相关信息,这样会导致模型倾向于可见类,并且分类时忽略了语义信息中与特征相关的有用信息.为了分解出相关的视觉特征和语义信息,提出了视觉—语义双重解纠缠框架.方法首先,使用条件变分自编码器为不可见类生成视觉特征,再通过一个特征解纠缠模块将其分解为语义一致性和语义无关特征.然后,设计了一个语义解纠缠模块将语义信息分解为特征相关和特征无关的语义.其中,利用总相关惩罚来保证分解出来的两个分量之间的独立性,特征解纠缠模块通过关系网络来衡量分解的语义一致性,语义解纠缠模块通过跨模态交叉重构来保证分解的特征相关性.最后,使用两个解纠缠模块分离出来的语义一致性特征和特征相关语义信息联合学习一个广义零样本学习分类器.结果实验在4个广义零样本学习公开数据集AWA2(animals with attributes2)、CUB(caltech-ucsd birds-200-2011)、SUN(SUN attribute)和FLO(Oxford flowers)上取得了比 Baseline更好的结果,调和平均值在AwA2、CUB、SUN和FLO上分别提升了1.6％、3.2％、6.2％和1.5％.结论在广义零样本学习分类中,本文提出的视觉—语义双重解纠缠方法经实验证明比基准方法取得了更好的性能,并且优于大多现有的相关方法.

关键词：零样本学习(ZSL)、广义零样本学习(GZSL)、解纠缠表示、变分自编码器(VAE)、跨模态重构、总相关性(TC)

所属期刊栏目：28

分类号：TP3(计算技术、计算机技术)

在线出版日期：2023-10-20（万方平台首次上网日期，不代表论文的发表时间）

页数：共14页

页码：2913-2926

英文信息展示

期刊专题