基于类邻域字典的线性回归文本分类

引用

摘要：

文本表示的高维性会增加文本分类时的计算复杂度.针对该问题,构建基于类邻域字典的线性回归分类模型.采用K近邻方法构造各类别的类邻域字典,根据对测试样本的不同表示,分别提出基于级联类邻域字典和基于类邻域字典的线性回归分类算法.此外,为缓解噪声数据对分类性能的影响,通过度量测试样本与各个类别之间的相关度裁剪噪声类数据.实验结果表明,该模型对长文本和短文本均能够得到较高的分类精度和计算效率,同时,噪声类裁剪策略使其对包含较多类别数的文本语料也具有较好的分类性能.

关键词：稀疏表示分类;K近邻;字典学习;线性回归分类;文本分类

所属期刊栏目：47

分类号：TP181(自动化基础理论)

资助基金：国家自然科学基金61302190

在线出版日期：2021-08-23（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：93-99,108

英文信息展示

期刊专题