10.11925/infotech.2096-3467.2021.0911
基于多模态融合的非遗图片分类研究
[目的]针对当前非遗图片分类不足的问题,提出结合非遗图片和文本描述,以多模态融合的方式进行非遗图片分类研究.[方法]构建基于多模态融合的非遗图片分类模型(Image Classification Model with Multimodal Fusion,ICMMF),其主要由用于非遗图片视觉语义特征抽取的微调深度预训练模型、对文本特征进行抽取的BERT模型、融合视觉语义特征和文本描述特征的多模态融合层和预测类别输出层组成.[结果]以国家级非遗项目——年画为例,对我国四大年画(绵竹年画、杨柳青年画、杨家埠年画及桃花坞年画)进行分类.将ICMMF模型在建立的数据集中进行实证,实验结果表明,对图片深度预训练模型中的卷积层进行微调,能够改善非遗图片的视觉语义特征,分类的Fl值最高达72.028%.在同基线模型的对比中,ICMMF模型表现最优,Fl值达77.574%.[局限]ICMMF模型仅在年画数据集上进行了测试,未在更广泛的非遗项目中进行验证.[结论]结合文本描述,以多模态的方式进行非遗图片分类,能够有效提升模型的分类性能;同时,对图片深度预训练模型中的卷积层进行微调,能够改善抽取的视觉语义特征.
数字人文、多模态分类、图片分类
6
G202(信息与传播理论)
国家自然科学基金;中央高校基本科研业务费专项资金资助项目
2022-06-23(万方平台首次上网日期,不代表论文的发表时间)
共9页
329-337