10.3772/j.issn.1000-0135.2014.09.007
基于语义分析的降维特征提取
文本挖掘中,特征提取和选择是非常关键的问题,决定了分类、聚类、信息挖掘等后续处理的效率和质量。本文针对一般方法进行特征选择所存在的信息损失问题,提出了提高特征选择质量的思路:精确的特征提取和准确的特征合并。围绕着这个思路,基于C-Value特征提取理论,提出了特征提取算法,能够提高多词特征词串的提取精度;以知网(HowNet)为工具,提出了基于语义相似度的特征合并算法,在不损失特征信息的情况下,有效地合并特征词串、降低特征维数,并使特征的语义更为清晰。
文本挖掘、特征提取、特征选择、降维、语义相似度、知网
TP3;TP2
1基金项目国家自然科学基金61374003。
2015-04-20(万方平台首次上网日期,不代表论文的发表时间)
共7页
952-958