10.3969/j.issn.2095-2163.2024.01.002
基于先验知识的纺织论文关键词自动抽取系统研究
为解决文章关键词数量过少、词义泛化、选词生僻、一义多词等问题,在搜集整理大量纺织领域论文和专业名词的基础上,遵循"避免泛化词"和"作者习惯"的原则,提出一种基于先验知识的论文关键词抽取新算法.首先统计候选关键词在概要库和关键词集中的出现频次,计算其先验概率;再借鉴"影响因子百分位"的思想,计算每个候选关键词的词频百分位,得到候选关键词的排序指标用于关键词抽取系统的排序推荐.经测试,该算法平均准确率(F1值)是无监督关键词抽取算法Tex-tRank的1.7倍,并高于计算机领域同类型的半监督主流算法,证明了先验知识用于关键词排序推荐的有效性.
影响因子百分位、自动抽取、先验知识、先验概率、纺织论文
14
TP391.1(计算技术、计算机技术)
2024-01-31(万方平台首次上网日期,不代表论文的发表时间)
共8页
8-15