10.3969/j.issn.1006-4303.2013.05.016
基于语义词典和词汇链的关键词提取算法
关键词提取是文本挖掘领域中研究的核心技术之一.针对影响关键词提取质量的一词多义现象、同义词现象、文章主题准确全面表达的难点,提出了一种基于语义的关键词提取方法KET-CLC,将《同义词词林》语义词典和词汇链方法相结合,对文本分别作预处理、多义词词义消歧、同义词合并、词汇链构建、有效特征选取及对权重综合计算改进的处理,提取出的关键词不仅避免了同义词冗余表达,而且较准确全面地覆盖文本的主题.实验结果表明:基于KETCLC方法比基于TFIDF以及基于词汇链的方法具有较优的提取效果,具有一定的实际应用价值.
同义词词林、词汇链、关键词提取、语义分析、共现率
41
TP391(计算技术、计算机技术)
2013-11-22(万方平台首次上网日期,不代表论文的发表时间)
共7页
545-551