10.3969/j.issn.1000-3428.2007.02.022
重复串特征提取算法及其在文本聚类中的应用
针对Web文档的高维问题及网络新语言给现有分词系统带来的挑战,该文提出一种基于重复串的特征提取方法,可以从文本中提取有意义的特征,且对于中文无需分词.实验表明,该方法可以降低特征空间维度,同时能有效改善传统以词为特征的聚类算法的性能.
文本聚类、特征提取、重复串
33
TP312(计算技术、计算机技术)
国家重点基础研究发展计划973计划2004CB318109
2007-03-12(万方平台首次上网日期,不代表论文的发表时间)
共3页
65-67