面向自然语言处理的预训练技术研究综述

引用

摘要：

近年来,随着深度学习的快速发展,面向自然语言处理领域的预训练技术获得了长足的进步.早期的自然语言处理领域长期使用Word2Vec等词向量方法对文本进行编码,这些词向量方法也可看作静态的预训练技术.然而,这种上下文无关的文本表示给其后的自然语言处理任务带来的提升非常有限,并且无法解决一词多义问题.ELMo提出了一种上下文相关的文本表示方法,可有效处理多义词问题.其后,GPT和BERT等预训练语言模型相继被提出,其中BERT模型在多个典型下游任务上有了显著的效果提升,极大地推动了自然语言处理领域的技术发展,自此便进入了动态预训练技术的时代.此后,基于BERT的改进模型、XLNet等大量预训练语言模型不断涌现,预训练技术已成为自然语言处理领域不可或缺的主流技术.文中首先概述预训练技术及其发展历史,并详细介绍自然语言处理领域的经典预训练技术,包括早期的静态预训练技术和经典的动态预训练技术;然后简要梳理一系列新式的有启发意义的预训练技术,包括基于BERT的改进模型和XLNet;在此基础上,分析目前预训练技术研究所面临的问题;最后对预训练技术的未来发展趋势进行展望.

关键词：自然语言处理、预训练、词向量、语言模型

所属期刊栏目：47

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金U1636211,61672081;软件开发环境国家重点实验室课题SKLSDE-2019ZX-17;北京成像理论与技术高精尖创新中心课题BAICIT-2016001

在线出版日期：2020-04-10（万方平台首次上网日期，不代表论文的发表时间）

页数：共12页

页码：162-173

英文信息展示

期刊专题