10.3969/j.issn.1000-7024.2007.11.076
基于体裁的中文网页分类的特征选取
探讨基于体裁的中文网页分类的特征项选取问题.词汇特征方面,结合自动抽取和人工归纳的方式来获得.通过改进PAT树存储结构,进行序列挖掘来获得频繁字符串特征,使得文本分类系统摆脱对切词处理和词典的依赖,并提出了模糊字符串模式的特征表达方式.此外,特征集中融入了文本的形式特征,并根据网页的特点,引入链接信息特征.实现了基于体裁的中文网页分类系统,结果表明分类效果得到了有效的改善.
网页分类、体裁、特征选取、序列挖掘、模糊字符串模式
28
TP391(计算技术、计算机技术)
福建省科技攻关项目20041014;福建省自然科学基金A0510020
2007-07-09(万方平台首次上网日期,不代表论文的发表时间)
共3页
2743-2745