基于语言描述的细粒度美妆图片排序

引用

摘要：

文中研究了化妆领域中基于文本的细粒度视觉推理问题,具体探究了一个新颖的多模态任务,即根据有序的化妆步骤描述,对化妆过程中打乱顺序的人脸图片进行排序.针对这个新颖的任务,通过数据的处理和分析,提出了两个排序模型:第一个排序模型从单模态的角度出发,只利用图片的信息进行排序;第二个模型从多模态的角度出发,通过建立文本描述和图片之间的联系来指导图片排序.在 YouMakeup VQAChallenge数据集上进行了详实的实验以及分析,实验结果表明,所提出的两个模型在不同的图片对数据上具有互补性,在美妆图片排序任务上具有良好的表现,在测试集上的选择准确率分别达到了70%和 58.93%.

关键词：图片排序、视觉推理、美妆领域、细粒度、多模态、深度学习

所属期刊栏目：47

分类号：TP37(计算技术、计算机技术)

资助基金：国家自然科学基金;北京市自然科学基金;国家重点研发计划

在线出版日期：2020-12-28（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：161-168

英文信息展示

期刊专题