10.3969/j.issn.1006-9348.2008.01.026
基于文本的关联规则提取方法的研究
随着人们利用信息技术生产和搜集数据的能力的提高,数据资料的规模急速膨胀,从庞大的数据中提取有用的知识和信息是数据挖掘的主要任务,而关联规则的挖掘足数据挖掘领域中的一个重要分支.Fp-gmwth算法是目前最有效的关联规则频繁模式挖掘算法之一,然而,由于在挖掘的过程中需要递归的生成频繁模式树,直接把Fp-growth算法应用在文本中的算法效率并不高.针对文本数据的稀疏性,提出了一个基于频繁模式树即Fp-tree和支持度矩阵相结合的最大频繁项目集挖掘算法,缩小了搜索空间,提高了算法的效率.算法分析和实验表明,算法对稀疏型数据集和稠密型数据均适用.
数据挖掘、关联规则、频繁模式增长、最大频繁项目集
25
TP31(计算技术、计算机技术)
2008-05-15(万方平台首次上网日期,不代表论文的发表时间)
共4页
96-99