10.3772/j.issn.1000-0135.2018.04.008
基于表示学习的跨模态检索模型与特征抽取研究综述
以深度学习为代表的表示学习在语音识别、图像分析和自然语言处理领域获得了广泛关注与应用,它不仅推动了人工智能的深入研究和快速发展,而且促使企业思索新的运营与盈利模式.本文拟通过综述的形式对这些研究进行梳理,形成较为完整的综述.通过对国内外相关文献的调查和整理,从信息抽取与表示、跨模态系统建模两维度评述了基于表示学习的跨模态检索与特征抽取方面的研究成果.文章首先概括了自动编码器、稀疏编码、限制玻尔兹曼机、深度信念网络、卷积神经网络等五个经典的表示学习算法,然后从基于共享层建立各模态间的关联、表示空间中各模态间的关联、以深度学习为基础的跨模态建模算法等三方面归纳跨模态系统建模研究的现状,最后总结了跨模态检索的评价指标.研究发现:已有检索研究对于单模态信息检索较为丰富,查询和候选集的内容均属于同一模态;跨模态检索也仅限于对图像、文本两个模态对齐的语料.未来需要增加语音、视频、图像、文本等多模态数据的检索,改进深度学习算法构建多模态检索模型,实现三种或以上的跨模态检索.此外,尚需建立适合多模态检索系统的评价指标.
表示学习、跨模态检索、特征抽取、模型、综述
37
国家社会科学基金项目"基于表示学习的跨模态检索模型与特征抽取研究"17BTQ062
2018-08-24(万方平台首次上网日期,不代表论文的发表时间)
共14页
422-435