10.11772/j.issn.1001-9081.2022121910
融合多模态信息的产品摘要抽取模型
在网络购物平台上,简洁、真实、有效的产品摘要对于提升购物体验至关重要.网上购物无法接触到产品实物,产品图像所含信息是除产品文本描述外的重要视觉信息,因此融合包括产品文本和产品图像在内的多模态信息的产品摘要对于网络购物具有重要的意义.针对融合产品文本描述和产品图像的问题,提出一种融合多模态信息的产品摘要抽取模型.与一般的产品摘要任务的输入只包含产品文本描述不同,该模型引入了产品图像作为一种额外的信息来源,使抽取产生的摘要更丰富.具体来说,首先对产品文本描述和产品图像分别使用预训练模型进行特征表示,从产品文本描述中提取每个句子的文本特征表示,从产品图像中提取产品整体的视觉特征表示;然后使用基于低阶张量的多模态融合方法将每个句子的文本特征和整体视觉特征进行模态融合,得到每个句子的多模态特征表示;最后将所有句子的多模态特征表示输入摘要生成器中以生成最终的产品摘要.在CEPSUM(Chinese E-commerce Product SUMmarization)2.0数据集上进行对比实验,在CEPSUM 2.0的3个数据子集上,该模型的平均ROUGE-1比TextRank高3.12个百分点,比BERTSUMExt(BERT SUMmarization Extractive)高1.75个百分点.实验结果表明,该模型融合产品文本和图像信息对于产品摘要是有效的,在ROUGE评价指标上表现良好.
产品摘要、多模态摘要、抽取式摘要、多模态融合、自动文摘
44
TP391.1(计算技术、计算机技术)
2024-01-31(万方平台首次上网日期,不代表论文的发表时间)
共6页
73-78