DOI：10.3969/j.issn.1000-0135.2006.05.011

海量数据集上基于特征组合的关键词自动抽取

引用

摘要：

关键词自动抽取的任务就是使用计算机自动地从文本中抽取能够高度有效表达文本主题的词汇.小规模训练集和测试集下的关键词自动抽取已经有诸多算法实现,但是大规模分布复杂的数据集上的关键词自动抽取却很少有学者提及.本文利用现有的信息检索技术,对海量数据集上自动抽取关键词问题进行了研究,给出了一个基于特征组合的关键词自动抽取方法.该方法构造了一个大规模的关键词词典;基于TF× IDF值和其他特征,提出了更有效的关键词权重计算方法;根据关键词本身的特点,对候选关键词进行了后处理,使得抽取的关键词更符合读者的要求.本文的后续实验表明,该方法同基于Bayes和KNN等的机器学习方法相比,性能相当.使用自动评价和人工评价两种方法对抽取的关键词进行了评估.专业编辑对抽取结果的人工评价显示,约95%的自动抽取的关键词可以被专业编辑或者读者接受.

关键词：关键词自动抽取、特征组合、海量数据集、TF×IDF

所属期刊栏目：25

分类号：TP2(自动化技术及设备)

在线出版日期：2006-11-28（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：587-593

英文信息展示

期刊专题