一种面向文本分类的特征迁移方法

引用

摘要：

传统的文本分类方法假设训练集与测试集中的特征词服从相同的概率分布,但在实际应用中,以上假设存在偏差,会影响到最终的分类结果.针对这一情况,本文采用迁移学习,通过计算特征词的迁移量对训练集中向量空间模型进行修正,最终使训练集与测试集中特征词的分布概率趋于一致.将提出的方法应用于中文垃圾邮件过滤与中、英文网页分类中,在CHI统计特征选择基础上进行特征迁移,实验结果表明新方法可以有效消除特征词分布的差异性,使文本分类的各项指标明显提高.

关键词：文本分类、迁移学习、迁移量、向量空间模型

所属期刊栏目：32

分类号：TP18(自动化基础理论)

资助基金：国家自然科学基金60975035,61273291;山西省回国留学人员科研基金2012008

在线出版日期：2017-07-26（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：516-522

英文信息展示

期刊专题