DOI：10.3969/j.issn.1000-3428.2012.22.040

基于语义扩展模型的中文网页关键词抽取

引用

摘要：

提出一种基于语义扩展模型、分步骤的无监督关键词抽取方法.选择词语的网页结构特征、词性、词长、TF-IDF值等特征,通过聚类算法抽取候选关键词.根据n-gram语言模型理论,引入邻接变化数等特征构建基于词的语义扩展模型,采用无监督方法将候选关键词扩展为关键词串.实验结果表明,该方法能有效改善针对未登录词及短语的抽取结果,提高中文网页关键词抽取结果的质量.

关键词：中文网页关键词抽取、语义扩展模型、邻接变化数、聚类算法、n-gram语言模型

所属期刊栏目：38

分类号：TP391(计算技术、计算机技术)

资助基金：国家"863"计划基金资助项目"结合语义的视频服务网站自动发现与分析评估"2008AA01Z408

在线出版日期：2013-01-05（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：163-166

英文信息展示

期刊专题