多模态与文本预训练模型的文本嵌入差异研究
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.13209/j.0479-8023.2022.074

多模态与文本预训练模型的文本嵌入差异研究

引用
为了详细地分析文本单模态预训练模型RoBERTa和图文多模态预训练模型WenLan文本嵌入的差异,提出两种定量比较方法,即在任一空间中,使用距离一个词最近的k近邻词集合表示其语义,进而通过集合间的Jaccard相似度来分析两个空间中词的语义变化;将每个词与其k近邻词组成词对,分析词对之间的关系.实验结果表明,图文多模态预训练为更抽象的词(如成功和爱情等)带来更多的语义变化,可以更好地区分反义词,发现更多的上下义词,而文本单模态预训练模型更擅长发现同义词.另外,图文多模态预训练模型能够建立更广泛的词之间的相关关系.

多模态预训练、文本表示、文本嵌入分析

59

TP311.13;H146.2;H3

北京高校卓越青年科学家计划项目BJJWZYJH012019100020098

2023-02-16(万方平台首次上网日期,不代表论文的发表时间)

共9页

48-56

相关文献
评论
暂无封面信息
查看本期封面目录

北京大学学报(自然科学版)

0479-8023

11-2442/N

59

2023,59(1)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn