融合知识表征的多模态Transformer场景文本视觉问答

引用

摘要：

目的现有视觉问答方法通常只关注图像中的视觉物体,忽略了对图像中关键文本内容的理解,从而限制了图像内容理解的深度和精度.鉴于图像中隐含的文本信息对理解图像的重要性,学者提出了针对图像中场景文本理解的"场景文本视觉问答"任务以量化模型对场景文字的理解能力,并构建相应的基准评测数据集TextVQA(text visual question answering)和 ST-VQA(scene text visual question answering).本文聚焦场景文本视觉问答任务,针对现有基于自注意力模型的方法存在过拟合风险导致的性能瓶颈问题,提出一种融合知识表征的多模态Trans-former 的场景文本视觉问答方法,有效提升了模型的稳健性和准确性.方法对现有基线模型M4C(multimodal multi-copy mesh)进行改进,针对视觉对象间的"空间关联"和文本单词间的"语义关联"这两种互补的先验知识进行建模,并在此基础上设计了一种通用的知识表征增强注意力模块以实现对两种关系的统一编码表达,得到知识表征增强的 KR-M4C(knowledge-representation-enhanced M4C)方法.结果在 TextVQA 和 ST-VQA 两个场景文本视觉问答基准评测集上,将本文KR-M4C方法与最新方法进行比较.本文方法在TextVQA数据集中,相比于对比方法中最好的结果,在不增加额外训练数据的情况下,测试集准确率提升2.4％,在增加ST-VQA数据集作为训练数据的情况下,测试集准确率提升1.1％;在ST-VQA数据集中,相比于对比方法中最好的结果,测试集的平均归一化Levenshtein相似度提升5％.同时,在TextVQA数据集中进行对比实验以验证两种先验知识的有效性,结果表明提出的KR-M4C模型提高了预测答案的准确率.结论本文提出的KR-M4C方法的性能在TextVQA和ST-VQA两个场景文本视觉问答基准评测集上均有显著提升,获得了在该任务上的最好结果.

关键词：场景文本视觉问答、知识表征、注意力机制、Transformer、多模态融合

所属期刊栏目：27

分类号：TP391.4(计算技术、计算机技术)

资助基金：国家重点研发计划;国家自然科学基金;国家自然科学基金;浙江省自然科学基金;浙江省自然科学基金

在线出版日期：2022-09-27（万方平台首次上网日期，不代表论文的发表时间）

页数：共14页

页码：2761-2774

英文信息展示

期刊专题