10.3772/j.issn.1000-0135.2009.02.001
适用于隐含主题抽取的K最近邻关键词自动抽取
众所周知,K最近邻方法作为机器学习领域的一个经典的方法,在很多领域都有出色的表现.本文利用K最近邻方法的思想,提出了一种基于K最近邻的关键词自动抽取方法.现有的关键词抽取技术仅仅是对正文词汇的抽取,不能抽取隐含主题.隐含主题的抽取是关键词自动抽取技术的难点,但是该方法可以有效抽取隐含主题.该方法首先对数据进行预处理,使用向量空间模型将文本表述为数学化语言;然后,以人工标注关键词的文献数据作为训练集,使用K最近邻方法构建新文献的关键词候选集;最后,根据关键词本身的特点对候选关键词做了有效的后处理.实验表明,该方法不仅可以提高关键词抽取的准确率和召回率,还可以有效抽取文章的隐含主题.
自动抽取、K最近邻、隐含主题、向量空间模型
28
TP1;TP3
"十一五"国家科技支撑计划重点项目2006BAN03B04;南京理工大学科研启动基金项目AB41123
2009-05-08(万方平台首次上网日期,不代表论文的发表时间)
共6页
163-168