10.3969/j.issn.1674-2346.2023.02.016
基于LDA-TF-IDF和Word2vec文档表示
针对自然语言处理中传统文档表示方法上下文语义信息不全,干扰词多等问题,提出了一种基于LDA-TF-IDF和Word2vec的文档表示方法.首先对数据集进行分词、去停用词等预处理;其次,利用LDA主题模型和TF-IDF抽取文档中具有表征性的特征词,并计算对应权重;最后,应用数据集训练Word2vec模型获取词向量,并将抽取的特征词权重融入Word2vec词向量构建文档语义向量.通过分类任务对该方法进行验证,实验结果表明,与已有方法相比该方法在垃圾短信数据集上表现效果更佳,验证了方法的有效性.
LDA主题模型、TF-IDF、word2vec、文档表示
22
TP391.1(计算技术、计算机技术)
浙江省访问工程师项目;浙江纺织服装职业技术学院科研课题
2023-11-10(万方平台首次上网日期,不代表论文的发表时间)
共6页
91-96