10.16652/j.issn.1004-373x.2022.01.019
改进词向量和kNN的中文文本分类算法
为提高中文文本分类的效率和准确率,针对汉字象形字的特点和数据量剧增的大数据背景,建立基于深度学习的中文文本分类算法.首先根据汉字子字符(字形、偏旁、笔画等)象形字即形状自带含义的特点,建立基于子字符和上下文特征的双通道CBOW模型实现中文文本向量化;其次基于大数据的背景,针对传统的kNN算法分类速度慢的缺点,提出一种基于LSC聚类和多目标数据筛选的快速kNN分类算法;最后运用快速kNN算法对文本数据转化的特征词向量数据进行分类.实验结果表明,改进后的中文文本分类算法增加了算法的使用范围,能够更精确地处理中文文本数据,更快地处理大数据问题,在分类速率和效果上都有一定程度的提升.
中文文本分类;文本向量化;快速kNN算法;词向量;双通道CBOW模型;特征向量;数据分类
45
TN911.1-34;TP3
国家自然科学基金71473194
2022-02-22(万方平台首次上网日期,不代表论文的发表时间)
共4页
100-103