10.3969/j.issn.1000-0135.2008.04.005
中文文本关键词自动抽取方法研究
随着信息技术的发展,中文电子文本信息资源正以惊人的速度急剧增长.文本自动处理技术,通过自动组织海量文献信息资源,能够为用户提供简易有效的信息检索服务.关键词自动抽取是文本自动处理的基础和核心.汉语的特殊性加剧了中文文本关键词自动抽取的难度.本文提出了一种基于N-gram权重计算和关键词筛选算法的中文文本关键词自动抽取方法.该方法不依赖特定的数据集和中文分词技术,可以有效地抽取出任意单篇文本的关键词,而且通过参数调整,应用系统可以灵活地控制标引深度和标引专指度.实验表明,该方法简单、快速、断词错误率低,标引性能明显优于基于中文分词和TF/IDF的方法,可以满足大规模文本的在线处理要求.
中文文本、关键词抽取、文本表达
27
TP3;G25
本文研究由德国Social Science Information Centre和德国学术交流协会DAAD提供资助
2008-12-03(万方平台首次上网日期,不代表论文的发表时间)
共9页
512-520