10.3969/j.issn.1003-6059.2012.02.023
统计流形扩散核的文本分类方法
提出Dirichlet混合多项式(DCM)流形,并利用DCM流形可与正半球流形建立同胚和等距关系的性质,通过拉回映射将正半球流形的测地距离映射为DCM流形的测地距离,从而在DCM流形上建立距离度量,构建统计流形上的Dirichlet混合多项式扩散核和Dirichlet混合多项式倒排文档频率(DCMIDF)扩散核.利用WebKB Top 4和20 Newsgroups语料库上进行实验,DCM流形能比欧氏空间更能准确地描述文本.与多项式核支持向量机算法、,负测地距离核支持向量机算法相比,实验结果显示文中基于DCM扩散核和DCMIDF扩散核的支持向量机算法可取得良好的文本分类效果.
统计流形、扩散核、Dirichlet分布、文本分类
25
TP391(计算技术、计算机技术)
国家自然科学基金60903071;北京市重点学科基金xk100070427
2012-07-13(万方平台首次上网日期,不代表论文的发表时间)
共7页
339-345