TF-IDF和Word2vec在新闻文本分类中的比较研究
随着互联网时代的发展,各类数据层出不穷,新闻数据更是呈指数爆炸式增长,通过人工对新闻文本进行分类得越发困难.自动文本分类技术作为自然语言处理的重要分支而受到学者们的广泛关注.文章首先对新闻文本进行数据预处理,随后重点研究了TF-IDF和Word2vec两种不同的文本表示方法,采用KNN算法完成新闻文本分类对比,实验结果表明Word2vec表示的特征向量在新闻文本分类中取得了较好的分类效果.
TF-IDF、Word2vec、文本分类
16
TP3(计算技术、计算机技术)
2020-11-20(万方平台首次上网日期,不代表论文的发表时间)
共3页
220-222