DOI：10.16652/j.issn.1004-373x.2022.01.019

改进词向量和kNN的中文文本分类算法

全文直达

下载全文

在线阅读

引用

摘要：

为提高中文文本分类的效率和准确率,针对汉字象形字的特点和数据量剧增的大数据背景,建立基于深度学习的中文文本分类算法.首先根据汉字子字符(字形、偏旁、笔画等)象形字即形状自带含义的特点,建立基于子字符和上下文特征的双通道CBOW模型实现中文文本向量化;其次基于大数据的背景,针对传统的kNN算法分类速度慢的缺点,提出一种基于LSC聚类和多目标数据筛选的快速kNN分类算法;最后运用快速kNN算法对文本数据转化的特征词向量数据进行分类.实验结果表明,改进后的中文文本分类算法增加了算法的使用范围,能够更精确地处理中文文本数据,更快地处理大数据问题,在分类速率和效果上都有一定程度的提升.

关键词：中文文本分类;文本向量化;快速kNN算法;词向量;双通道CBOW模型;特征向量;数据分类

所属期刊栏目：45

分类号：TN911.1-34;TP3

资助基金：国家自然科学基金71473194

在线出版日期：2022-02-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：100-103

英文信息展示

期刊专题