DOI：10.3979/j.issn.1673-825X.2018.02.017

基于Word2vector的文本特征化表示方法

引用

摘要：

针对基于词语统计的特征化表示无法有效提取文本的词义特征的问题,提出一种基于上下文关系的文本特征化表示方法.该方法利用Word2vector提取词义特征,获得词向量;再对词向量进行“最优适应度划分”的聚类,并根据聚类结果将词语替代表示为聚类质心;根据质心及其所代表的词语的词频,构成词向量聚类质心频率模型(semantic frequency-inverse document frequency,SF-IDF),用于特征化表示文本.在不依赖语义规则的情况下,分别以路透社文本集Reuter-21578、维基百科(extensible markup language,XML)数据为文本数据集,采用神经网络语言模型(neural network language model,NNLM)算法进行文本分类实验,并采用F1-measure标准进行样本分类的效果评估,词向量聚类质心频率模型SF-IDF(semantic frequency-inverse document frequency,SF-IDF)向量与现有技术中词频-逆向文件频率(term frequency-inverse document frequency,TF-IDF)向量的分类效果对比,与TF-IDF模型进行对比实验;在Reuter-21578数据集上平均准确率由原有的57.1％提高到63.3％,在Wikipedia XML数据集上平均准确率由原有的48.7％提高到59.2％.SF-IDF模型可适用于现行的基于特征向量的信息检索算法,且较TF-IDF模型有更高的文本相似性分析效率,可提升文本分类准确率.

关键词：Word2vector、上下文关系、特征化表示、文本分类

所属期刊栏目：30

分类号：TP391.9(计算技术、计算机技术)

资助基金：湖南省教育厅科研项目15C1288;国家自然科学基金61379109,61402165;郴州市科技计划项目cz2015036

在线出版日期：2018-09-29（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：272-279

英文信息展示

期刊专题