基于GloVe模型的词向量改进方法
使用词向量表示方法能够很好的捕捉词语的语法和语义信息,为了能够提高词向量语义信息表示的准确性,本文通过分析GloVe模型共现矩阵的特点,利用分布式假设,提出了一种基于GloVe词向量训练模型的改进方法.该方法主要通过对维基百科统计词频分析,总结出过滤共现矩阵中无关词和噪声词的一般规律,最后给出了词向量在词语类比数据集和词语相关性数据集的评估结果.实验表明,在相同的实验环境中,本文的方法能够有效的缩短词向量的训练时间,并且在词语语义类比实验中准确率得到提高.
词向量、Word2Vec、GloVe、共现矩阵、无关词
28
国家重点研发计划2017YFC0803300;北京市教委项目KM201810005023,KM201810005024,KZ201610005009;国家自然科学基金61402449, 61703013, 91546111, 91646201;北京市科技计划项目Z161100001116072
2019-03-12(万方平台首次上网日期,不代表论文的发表时间)
共6页
194-199