10.3969/j.issn.1007-1350.2021.18.073
基于领域类别信息的关键词提取技术
关键词是文本处理中很重要的环节,通过提取文档的关键词,可以简要概况该文档的大体内容.在传统算法中,主要依靠词频-逆文档率(TF-IDF)信息提取关键词,此种方法没有利用领域类别信息.文章基于领域类别信息,首先计算每个关键词的词频-方差指标,然后利用领域互斥关键词提取、非领域互斥关键词提取两种方案选择出每个领域的关键词,最后给出了训练和预测的整体流程,具有较强的实用性和较好的分类效果.
互斥关键词;非互斥关键词;有监督模型;词频
2021-10-22(万方平台首次上网日期,不代表论文的发表时间)
共3页
212-213,219