10.19678/j.issn.1000-3428.0056370
融合单词贡献度与Word2Vec词向量的文档表示
针对现有文档向量表示方法受噪声词语影响和重要词语语义不完整的问题,通过融合单词贡献度与Word2Vec词向量提出一种新的文档表示方法.应用数据集训练Word2Vec模型,计算数据集中词语的贡献度,同时设置贡献度阈值,提取贡献度大于该阈值的单词构建单词集合.在此基础上,寻找文档与集合中共同存在的单词,获取其词向量并融合单词贡献度生成文档向量.实验结果表明,该方法在搜狗中文文本语料库和复旦大学中文文本分类语料库上分类的平均准确率、召回率和F1值均优于TF-IDF、均值Word2Vec、PTF-IDF加权Word2Vec模型等传统方法,同时其对英文文本也能进行有效分类.
单词贡献度、Word2Vec词向量、词嵌入、文档表示、文本分类
47
TP391(计算技术、计算机技术)
国家自然科学基金61673146
2021-05-07(万方平台首次上网日期,不代表论文的发表时间)
共6页
62-67