10.3969/j.issn.1672-9722.2020.06.008
语义相似度领域基于XGBOOST算法的关键词自动抽取方法
关键词自动提取一直都是自然语言处理领域的一个基础问题与研究热点,随着文本数据的指数级增长与应用场景的不断扩展,如何高效且准确地自动提取关键词进一步得到了研究者的广泛关注.在语义相似度计算中,对两个文本进行关键词抽取的效果都对判断两个文本是否相似的结果有重大影响.论文提出了一种在语义相似度领域融合KL散度,TF-IDF,词性,词语长度等多种特征,基于XGBOOST算法的关键词自动抽取方法,实验结果表明,该方法与KL散度,TF-IDF以及基于传统机器学习算法的有监督方法相比,效果有显著提升.
自动抽取、KL散度、XGBOOST
48
TP391(计算技术、计算机技术)
2020-08-13(万方平台首次上网日期,不代表论文的发表时间)
共5页
1300-1303,1385