DOI：10.3969/j.issn.1000-0135.2008.04.005

中文文本关键词自动抽取方法研究

引用

摘要：

随着信息技术的发展,中文电子文本信息资源正以惊人的速度急剧增长.文本自动处理技术,通过自动组织海量文献信息资源,能够为用户提供简易有效的信息检索服务.关键词自动抽取是文本自动处理的基础和核心.汉语的特殊性加剧了中文文本关键词自动抽取的难度.本文提出了一种基于N-gram权重计算和关键词筛选算法的中文文本关键词自动抽取方法.该方法不依赖特定的数据集和中文分词技术,可以有效地抽取出任意单篇文本的关键词,而且通过参数调整,应用系统可以灵活地控制标引深度和标引专指度.实验表明,该方法简单、快速、断词错误率低,标引性能明显优于基于中文分词和TF/IDF的方法,可以满足大规模文本的在线处理要求.

关键词：中文文本、关键词抽取、文本表达

所属期刊栏目：27

分类号：TP3;G25

资助基金：本文研究由德国Social Science Information Centre和德国学术交流协会DAAD提供资助

在线出版日期：2008-12-03（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：512-520

英文信息展示

期刊专题