多模态与文本预训练模型的文本嵌入差异研究
为了详细地分析文本单模态预训练模型RoBERTa和图文多模态预训练模型WenLan文本嵌入的差异,提出两种定量比较方法,即在任一空间中,使用距离一个词最近的k近邻词集合表示其语义,进而通过集合间的Jaccard相似度来分析两个空间中词的语义变化;将每个词与其k近邻词组成词对,分析词对之间的关系.实验结果表明,图文多模态预训练为更抽象的词(如成功和爱情等)带来更多的语义变化,可以更好地区分反义词,发现更多的上下义词,而文本单模态预训练模型更擅长发现同义词.另外,图文多模态预训练模型能够建立更广泛的词之间的相关关系.
多模态预训练、文本表示、文本嵌入分析
59
TP311.13;H146.2;H3
北京高校卓越青年科学家计划项目BJJWZYJH012019100020098
2023-02-16(万方平台首次上网日期,不代表论文的发表时间)
共9页
48-56