DOI：10.3969/j.issn.1000-5641.2017.05.006

基于神经网络语言模型的分布式词向量研究进展

引用

摘要：

单词向量化是自然语言处理领域中的重要研究课题之一,其核心是对文本中的单词建模,用一个较低维的向量来表征每个单词.生成词向量的方式有很多,目前性能最佳的是基于神经网络语言模型生成的分布式词向量,Google公司在2012年推出的Word2vec开源工具就是其中之一.分布式词向量已被应用于聚类、命名实体识别、词性分析等自然语言处理任务中,它的性能依赖于神经网络语言模型本身的性能,并与语言模型处理的具体任务有关.本文从三个方面介绍基于神经网络的分布式词向量,包括:经典神经网络语言模型的构建方法;对语言模型中存在的多分类问题的优化方法;如何利用辅助结构训练词向量.

关键词：词向量、语言模型、神经网络

分类号：TP391(计算技术、计算机技术)

资助基金：国家重点研发计划2016YFB1000905;国家自然科学基金广东省联合重点项目U1401256;国家自然科学基金61672234,61402177;华东师范大学信息化软课题

在线出版日期：2017-12-06（万方平台首次上网日期，不代表论文的发表时间）

页数：共15页

页码：52-65,79

英文信息展示

期刊专题