10.3969/j.issn.1000-3428.2016.06.034
基于共现词卡方值的关键词提取算法
文本分词系统的词库未收录新词和组合词,而这些词具有很强的主题表现力.为此,基于共现词卡方值,提出一种关键词提取算法.使用语言技术平台的依存句法分词系统构建词语的关联关系,并提取共现词.应用卡方检验检测共现词的分布是否具有显著性差异.差异越大,共现词作为关键词的概率也越大,该算法同样适用于单个词.把单个词和共现词作为候选关键词,综合考虑候选关键词的卡方值、词频、词个数抽取全文关键词.实验结果表明,该算法提取关键词的效果优于TextRank算法,关键词提取的准确率达到38.07%,共现词的正确率达到80.15%.
依存句法分析、共现词、卡方检验、候选关键词、显著性差异
42
TP301.6(计算技术、计算机技术)
2016-08-19(万方平台首次上网日期,不代表论文的发表时间)
共5页
191-195