基于欠采样支持向量机不平衡的网页分类系统
在这个信息爆炸的时代,如何处理这些海量的数据如何有效的分类已经引起了人们的高度重视,尤其是在互联无技术迅速发展的阶段,网页分类这领域已成为热点.与传统的分类方法相比,支持向量机具有高维、小样本、适应性强的特点,能够非常有效率的解决网页分类问题,但是不平衡数据的分类这一方面,存在着分类不精确的问题.所以本文提出了新的解决不平衡数据样本策略,便是将欠采样策略与传统的支持向量机结合起来,在减少多数类样本集中噪声数据的基础上增加少数类的样本集数量,从而使得不平衡样本集趋向于平衡,最后结合SMO(Senquential Minimal Optimization)算法改进分类器,提高了分类的准确性.
支持向量机、SMO算法、训练集缩减算法、网页分类、多类分类
26
TP1;TP3
2017-05-08(万方平台首次上网日期,不代表论文的发表时间)
共6页
230-235