DOI：10.3969/j.issn.1000-7024.2007.11.076

基于体裁的中文网页分类的特征选取

引用

摘要：

探讨基于体裁的中文网页分类的特征项选取问题.词汇特征方面,结合自动抽取和人工归纳的方式来获得.通过改进PAT树存储结构,进行序列挖掘来获得频繁字符串特征,使得文本分类系统摆脱对切词处理和词典的依赖,并提出了模糊字符串模式的特征表达方式.此外,特征集中融入了文本的形式特征,并根据网页的特点,引入链接信息特征.实现了基于体裁的中文网页分类系统,结果表明分类效果得到了有效的改善.

关键词：网页分类、体裁、特征选取、序列挖掘、模糊字符串模式

所属期刊栏目：28

分类号：TP391(计算技术、计算机技术)

资助基金：福建省科技攻关项目20041014;福建省自然科学基金A0510020

在线出版日期：2007-07-09（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：2743-2745

英文信息展示

期刊专题