10.3321/j.issn:1002-8331.2005.22.056
基于Bigram的特征词抽取及自动分类方法研究
用计算机信息处理技术实现文本自动分类是计算机自然语言理解学科共同关注的课题.该文提出了一种基于Bigram的无词典的中文文本特征词的抽取方法,并利用互信息概念对得到的特征词进行处理,提高了特征词抽取的准确性.此外,通过采用基于统计学习原理和结构风险最小原则的支持向量机算法对一些文本进行了分类,验证了由所提出的算法得到的特征词的有效性和可行性.
自动文本分类、自动分词、互信息、Bigram
41
TP2(自动化技术及设备)
2005-09-15(万方平台首次上网日期,不代表论文的发表时间)
共4页
177-179,210