DOI：10.3969/j.issn.1672-9722.2020.06.008

语义相似度领域基于XGBOOST算法的关键词自动抽取方法

引用

摘要：

关键词自动提取一直都是自然语言处理领域的一个基础问题与研究热点,随着文本数据的指数级增长与应用场景的不断扩展,如何高效且准确地自动提取关键词进一步得到了研究者的广泛关注.在语义相似度计算中,对两个文本进行关键词抽取的效果都对判断两个文本是否相似的结果有重大影响.论文提出了一种在语义相似度领域融合KL散度,TF-IDF,词性,词语长度等多种特征,基于XGBOOST算法的关键词自动抽取方法,实验结果表明,该方法与KL散度,TF-IDF以及基于传统机器学习算法的有监督方法相比,效果有显著提升.

关键词：自动抽取、KL散度、XGBOOST

所属期刊栏目：48

分类号：TP391(计算技术、计算机技术)

在线出版日期：2020-08-13（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：1300-1303,1385

英文信息展示

期刊专题