DOI：10.3969/j.issn.1000-0135.2008.03.003

基于词典约简及多分类算法的文本分类系统的设计与开发

引用

摘要：

文本自动分类是目前机器学习、自然语言处理和信息资源检索领域的研究热点之一.本文在对自动分类的实现技术问题进行探讨的基础上,尝试对自动分类的几个环节提出改进措施.具体包括:采用约简法进行抽词词典的构造,采用投票法进行文本特征的选择,采用层次法进行逐层次的分类,采用统计与规则相结合的方法进行分类器的构造等.通过在不同语料库上与传统分类方法的对比测试表明,上述改进措施能够有效提高自动分类的性能,基于这些改进措施所开发的自动分类系统具有大规模文本自动分类的可行性.本文详细讨论了相关改进措施的原理、实现算法、流程及存在的问题.

关键词：抽词词典、自动分类、向量空间模型、层次分类、粗糙集

所属期刊栏目：27

分类号：TP3;G25

在线出版日期：2008-12-03（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：337-343

英文信息展示

期刊专题