基于依存句法的图像描述文本生成

引用

摘要：

现有图像描述文本生成模型能够应用词性序列和句法树使生成的文本更符合语法规则,但文本多为简单句,在语言模型促进深度学习模型的可解释性方面研究甚少.将依存句法信息融合到深度学习模型以监督图像描述文本生成的同时,可使深度学习模型更具可解释性.图像结构注意力机制基于依存句法和图像视觉信息,用于计算图像区域间关系并得到图像区域关系特征;融合图像区域关系特征和图像区域特征,与文本词向量通过长短期记忆网络(LSTM),用于生成图像描述文本.在测试阶段,通过测试图像与训练图像集的内容关键词,计算2幅图像的内容重合度,间接提取与测试图像对应的依存句法模板;模型基于依存句法模板,生成多样的图像描述文本.实验结果验证了模型在改善图像描述文本多样性和句法复杂度方面的能力,表明模型中的依存句法信息增强了深度学习模型的可解释性.

关键词：图像描述文本生成、依存句法、图像结构注意力、内容重合度、深度模型可解释性

所属期刊栏目：47

分类号：TP37(计算技术、计算机技术)

资助基金：国家社会科学基金;全军共用信息系统装备预先研究项目

在线出版日期：2021-04-19（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：431-440

英文信息展示

期刊专题