基于语言描述的细粒度美妆图片排序
文中研究了化妆领域中基于文本的细粒度视觉推理问题,具体探究了一个新颖的多模态任务,即根据有序的化妆步骤描述,对化妆过程中打乱顺序的人脸图片进行排序.针对这个新颖的任务,通过数据的处理和分析,提出了两个排序模型:第一个排序模型从单模态的角度出发,只利用图片的信息进行排序;第二个模型从多模态的角度出发,通过建立文本描述和图片之间的联系来指导图片排序.在 YouMakeup VQAChallenge数据集上进行了详实的实验以及分析,实验结果表明,所提出的两个模型在不同的图片对数据上具有互补性,在美妆图片排序任务上具有良好的表现,在测试集上的选择准确率分别达到了70%和 58.93%.
图片排序、视觉推理、美妆领域、细粒度、多模态、深度学习
47
TP37(计算技术、计算机技术)
国家自然科学基金;北京市自然科学基金;国家重点研发计划
2020-12-28(万方平台首次上网日期,不代表论文的发表时间)
共8页
161-168