10.3969/j.issn.1003-3254.2011.02.050
一种基于词聚类的文本特征描述方法
针对文本挖掘中存在的特征空间高维性问题,提出了一种基于词聚类的文本特征描述方法,旨在通过机器学习的方法挖掘词汇之间的语义关联,动态构造特定领域的概念词典,借助构造的概念来描述文本的特征,该方法不借助主题词典,先从训练语料中对词的共现情况进行分析,用词聚类(word clustering)生成由种子词(seedwords)表示的代表某一主题概念的词类,然后用种子词作为文本的特征项.实验表明,该方法不仅压缩了特征空间的维数,也克服了HowNet中概念信息的局限性,提高了文本分类的精确度.
文本特征描述、词共现、词聚类、种子词
20
TP3;TP1
国家自然科学基金60475022;山西省工业攻关项目2006031178
2011-06-27(万方平台首次上网日期,不代表论文的发表时间)
共5页
211-215